前言
大数据的时代
在过去二十年中,我们的世界已经进入了 "大数据 "时代。信息技术行业现在正面临着每天处理和分析大量数据的挑战和机遇。数据的规模和维度已经达到了前所未有的规模,并且还在以前所未有的速度增长。
例如,在技术方面,消费者数码相机的分辨率在过去十年左右增加了近十倍。每天有超过3亿张照片被上传到Facebook;1 每分钟有300小时的视频被上传到youtube,而中国的抖音(也被称为TikTok)则制作并发布了超过2000万个娱乐性短视频。
在商业方面,在一个繁忙的日子里,阿里巴巴网站需要接受超过8亿份采购订单,涉及1500多万种产品,处理超过10亿次的付款,并交付超过3000万件产品。淘宝网需要为超过1500万种产品接受8亿多份采购订单,处理超过10亿笔付款,并交付超过3000万个包裹。亚马逊公司的运营规模也相似,甚至更大。这些数字还在增长,而且增长得很快
快速增长!
在科学方面,超分辨率显微镜成像技术在过去的几十年里取得了巨大的进步。
在过去的几十年里取得了巨大的进步,一些技术现在能够产生大量具有亚原子分辨率的图像。
高通量基因测序技术能够对数以亿计的 高通量基因测序技术能够一次对数以百万计的DNA分子片段进行测序,并且能够在短短几个小时内对长度超过30亿个碱基对的包含20,000个蛋白质编码基因整个人类基因组进行测序。
信息获取、处理和分析的范式转变。
过去,科学家或工程师一直试图仔细控制数据采集设备和过程。由于设备昂贵且过程耗时,通常只收集特定给定任务所需的数据(或测量值)。收集的数据或信号大多为任务提供信息,除一些无法控制的噪声外,不包含太多冗余或无关信息。因此,经典信号处理或数据分析通常在以下前提下运行
经典前提:数据≈ 信息
在这一经典范式中,实践者主要需要处理一些问题,如消除噪音或压缩数据以进行存储或传输。
如上所述,互联网、智能手机、高通量成像和基因测序等技术从根本上改变了数据采集和分析的本质。我们正在从一个“数据贫乏”的时代走向一个“数据丰富”的时代。正如图灵奖获得者吉姆·格雷(JimGray)所指出的那样,“科学突破将越来越依赖于先进的计算能力,这些能力将帮助研究人员操纵和探索海量数据集。”这现在被称为科学发现的第四种范式【HTT09】。
然而,数据丰富并不一定意味着“信息丰富”,至少不是免费的。正在收集大量数据,有时事先没有任何特定目的。科学家或工程师通常不再直接控制数据采集过程,无论是采集数据的数量还是质量。因此,任何给定的新任务都可能被大量不相关或冗余的数据淹没。
为了直观地了解为什么会出现这种情况,让我们首先考虑人脸识别问题。图0.1显示了两个姐妹的两幅图像。可以说,对于人眼来说,两幅图像都能很好地传达人物的身份,即使第二幅图像的像素仅为第一幅图像的百分之一。换言之,如果我们将两幅图像视为向量,并将其像素值视为坐标,则低分辨率图像向量的维数仅为原始图像的1/100。很明显,关于一个人身份的信息依赖于比原始高分辨率图像低得多的维度的统计数据4。因此,在这种情况下,我们有一个新的前提:
新前提一:数据≫ 信息
对于目标检测任务,如图像中的人脸检测或监控视频中的行人检测,问题不再是冗余问题。取而代之的是,困难的是在一片无关数据的海洋中找到任何相关信息。例如,为了从图0.2所示的合影中检测和识别熟悉的人,与人脸相关的图像像素仅占图像像素的很小部分(本例中为1000万),而绝大多数像素属于周围完全无关的对象。此外,两位作者说,感兴趣的主题只是许多人脸中的两个。现在想象一下,将这个问题扩展到用手机或监控摄像头拍摄的数十亿张图像或数百万个视频。在遗传学研究中也会出现类似的“检测”和“识别”任务:在近20000个基因和它们编码的数百万蛋白质中,科学家需要确定哪一个(或少数几个)是导致某些遗传疾病的原因。在这种情况下,我们有:
新前提二:数据=信息+无关数据。
电子商务、在线购物和社交网络的爆炸式增长创造了大量用户偏好数据集。大型互联网公司通常拥有数十亿人的偏好记录,涉及数百万种商业产品、媒体内容等。从本质上讲,这样的用户偏好数据集,无论多么庞大,都远远不够完整。例如,在图0.3所示的电影收视率数据集中,没有人可以看到所有的电影,也没有任何电影可以被所有人看到。然而,像Netflix这样的公司需要从这些不完整的数据集中猜测客户的偏好,以便他们能够向客户发送最相关的建议或广告。信息检索文献中的这个问题被称为协同过滤,大多数互联网公司的业务都依赖于有效地解决此类问题。为什么可以从这样一个高度不完整的数据集中获得完整信息,最根本的原因是用户的偏好不是随机的,数据是有结构的。例如,许多人对电影有相似的品味,许多电影风格相似。用户首选项表的行和列具有很强的相关性,因此与表的大小相比,完整表的内在维度(或秩)实际上非常低。因此,对于从低维结构中提取的大型(不完整)数据集,我们有:
新前提二:不完整数据≈完整信息。
正如上面的例子所示,在现代大数据时代,我们经常面临着恢复隐藏在高度冗余、不相关、看似不完整甚至已损坏的数据集中的特定信息的问题。这些信息毫无例外地被编码为数据背后的某些低维结构,并且可能只依赖于(海量)数据集的一个小(或稀疏)子集。这与经典设置非常不同,正是现代数据科学和工程在数学和计算范式上正在经历根本转变的原因。在此基础上,我们需要开发一个新的数学框架,该框架描述了可以正确有效地获取和保留此类低维信息的精确条件。同样重要的是,我们需要开发高效的算法,能够以前所未有的速度、任意规模和有保证的准确性从海量高维数据集中检索此类信息。
本书的目的
在过去二十年中,高维空间中低维结构的研究取得了爆炸性的进展。在很大程度上,代表性低维模型的几何和统计特性(如稀疏和低秩及其变体和扩展)现在已经很好地得到了理解。这些模型可以从(最小采样量)数据中有效恢复的条件已得到明确描述。为了从高维数据中恢复此类低维模型,已经开发了许多高效且可扩展的算法。这些算法的工作条件、数据和计算复杂性也得到了全面而精确的描述。这些新的理论成果和算法彻底改变了数据科学和信号处理的实践,并对传感、成像和信息处理产生了重大影响。他们在科学成像7、图像处理8、计算机视觉9、生物信息学10、信息检索11和机器学习12等领域的许多应用方面显著提高了技术水平。正如我们将从本书中介绍的应用程序中看到的那样,其中一些开发似乎违背了传统智慧。
作为这些历史进步的见证人,我们认为现在时机已经成熟,可以对这一新的知识体系进行全面调查,并在统一的理论和计算范式下组织这些丰富的结果。关于这一主题,已有许多优秀的书籍已经专注于压缩感知和稀疏/低维建模的数学/统计原理【FR13、HTW15、Van16、Wai19、FLZZ20】。然而,本书的目标是通过真正易于处理和可伸缩的计算,弥合高维数据分析低维模型的原理和应用之间的差距:
新范式:原则←−−−计算−−−−−−−−−→ 应用。
因此,这本书不仅建立了低维结构建模的数学原理,并理解了它们何时可以恢复的限制,而且还展示了如何系统地开发可证明有效且可扩展的算法来解决恢复问题,同时利用优化领域的经典和最新发展。
此外,通过收集科学和技术方面的大量示例应用,本书旨在进一步指导读者和学生如何吸收额外的领域知识或其他非理想因素(例如非线性),以便正确应用这些新原则和方法来建模实际数据并成功解决现实问题。
尽管本书中的应用不可避免地受到作者在实践这些一般原则和方法方面的专业知识和经验的影响,但它们是经过精心挑选的,以传达我们所学到的各种互补的经验教训(通常是以艰难的方式)。我们相信这些教训对理论家和实践者都有价值。
目标受众
在许多方面,本书所涵盖的知识体系对数据科学领域的年轻研究人员和学生具有巨大的教学价值。通过严格的数学发展,我们希望我们的读者能够获得有关高维几何和统计学的新知识和见解,远远超过经典信号处理和数据分析领域的知识和见解。这些见解可推广到各种有用的低维结构和模型,包括现代深层网络,并可为重要的科学和工程问题带来全新的方法和算法。
因此,本书旨在作为一门课程的教科书,介绍从高维数据中感知、处理、分析和学习低维结构的基本数学和计算原理。本书的目标核心读者是电气工程和计算机科(EECS)的入门级研究生,尤其是在以下领域:数据科学、信号处理、优化、机器学习和应用程序。本书在高维几何、统计学和最优化的概念和方法方面为学生提供了系统而严格的培训。通过一系列非常多样化和丰富的应用程序和(编程)练习,本书还指导学生如何正确使用这些概念和方法来建模真实世界的数据并解决真实世界的工程和科学问题。这本书对老师和学生都很友好。它提供了丰富的插图、示例、练习和程序,学生可以从中学习。
本书的结构
本书的主体由三个相互关联的部分组成:原理、计算和应用(PCA)。本书还包含五个相关背景知识的附录。
•第一部分:原理(第2-7章)发展了稀疏、低秩和一般低维模型的基本性质和理论结果。它以样本/数据复杂性为特征,在此条件下,恢复此类低维结构的反问题变得易于处理,并且可以有效地求解,并保证正确性或准确性。
•第二部分:计算(第8-9章)介绍了凸优化和非凸优化的方法,以开发适用于恢复低维模型的实用算法。这些方法展示了如何系统地提高算法效率和降低总体计算复杂性的强大思路,从而使生成的算法快速且可扩展到大尺寸和高维数据。
•第三部分:应用(第10-16章)展示了前两部分中的原则和计算方法如何显著改善各种现实问题和实践的解决方案。这些应用程序还指导如何正确定制和扩展本书中介绍的理想化模型和算法,以纳入有关应用程序的其他特定领域知识(先验知识或约束)。
•本书末尾的附录A-E旨在使本书基本上独立。附录涵盖了本书正文中使用的线性代数、优化和高维统计的基本数学概念和结果。
图0.4显示了这些章节(和附录)的总体组织结构及其逻辑相关性。
###如何使用这本书进行教学。
这本书包含了足够两学期系列课程的材料。我们有目的地以模块化的方式组织书中的材料,以便可以轻松地选择和组织章节,以支持不同类型的课程。以下是一些示例:
•为研究生或高年级本科生开设的关于稀疏模型和方法的四分之一课程:导言第1章和两个理论第2章和第3章;凸优化第8章,以及第10、11和13章中的两到三个应用程序,加上一些附录,对于高年级本科生和研究生来说,是为期八到十周的夏季或季度课程的理想选择。这基本上是图0.4中突出显示的红色路线。
•为研究生开设一学期低维模型课程:引言第1章和四个理论章节2-5;凸优化第8章和多个应用程序第10、11、13–15章以及附录将足以为研究生开设一学期的低维模型课程。这基本上是图0.4中突出显示的红色和蓝色路线。
•针对从事相关领域研究的高年级研究生的高维数据分析高级专题课程:以之前的课程为前提,更深入地阐述数学原理,包括第6章关于一般低维模型的凸方法和第7章关于非凸方法。然后,我们可以在第8章和第9章以及非线性和非凸问题的若干应用第12、15和16章中更深入地介绍相关的凸和非凸优化方法。这些基本上是图0.4中突出显示的绿色和橙色路线。此外,讲师可以选择涵盖最新文献中的新发展,例如更广泛的低维模型系列、更先进的优化方法和深度网络的扩展(针对低维子流形),例如沿着第16章结语中建议的开放方向。当然,这本书可以作为现有(研究生水平)信号处理或图像处理课程的补充教材,因为它提供了更先进的新模型、方法和应用。它还可以作为更传统的优化课程的补充教材,因为第8章和第9章对一阶(因此更具可扩展性)方法进行了较为完整和现代的介绍。对于传统的机器学习或统计数据分析课程,本书可以作为对经典回归分析、主成分分析和深度学习进行更深入和更广泛扩展的额外参考。对于高维统计和概率的更具理论性的课程,本书可以作为辅助文本使用,并提供了大量激励和实践示例。
今后,我们非常希望听到有经验的教师和经验丰富的研究人员介绍本书中其他教学或学习材料的好方法。我们将在该书的网站上分享这些经验、建议,甚至新的贡献(示例、练习、插图等):