最优传输理论具有数百年的历史,发展到今天已经根深叶茂,博大精深。依随人工智能的发展浪潮,特别是深度学习的勃然兴起,最优传输理论再度焕发了新春!
图1. 逼真的人脸图片,由基于最优传输理论构造的生成模型所生成。
根据深度学习的流形分布定律:一类自然数据可以被视作高维背景空间中的低维数据流形上的一个概率分布,深度学习的主要任务包括两个,学习流形结构,表示概率分布。深度神经网络本质上是表达欧氏空间之间的非线性映射,因此如何用映射表示概率分布成为研究重点。而最优传输理论恰是研究概率分布之间映射的学问。为了响应时代要求,我们决定讲授最优传输理论和算法课程。
疫情期间,老顾在线上为计算机系和数学系学生讲解最优传输理论和算法课程,目前已经接近尾声。最优传输理论体系宏大,内容艰深,初学者难以掌握;最优传输映射的计算具有特殊的难度,需要很高的数值技巧,课后作业的难度很大。这篇短文旨在为同学们勾勒一下课程的逻辑线索,主要涵盖的问题和理论,使得同学们可以提纲挈领,抓住要点,从而有的放矢,自我加强,而不至于淹没于繁琐的细节之中。
最优传输理论大致有三种主要观点,同时有相应的计算方法:对偶观点 、几何观点和流体观点。这些观点相辅相成,浑然一体。我们课程的重点在于了解理论体系,建立几何直觉,开发实用算法,应用于工程实践。
对偶观点
法国数学家蒙日(Monge)提出了蒙日问题,成为最优传输理论的发轫。
蒙日问题 (Monge Problem) 假设是欧氏空间中的区域,
和
是
上的两个测度,满足总质量相等条件,
. 一个映射
被称为是保测度的,如果
,
简记为 . 给定传输代价函数,
,映射的总传输代价为
.
蒙日问题是求所有保测度映射中,总传输代价最小者:
.
蒙日问题的解被称为最优传输映射。最优传输映射的总代价被称为是和
之间的Wasserstein距离,例如如果传输代价是欧氏距离的平方,那么相应的Wasserstein距离为:
.
在深度学习中,Wasserstein距离被广泛应用于测量概率分布之间的相异程度,与传统方法相比,这种度量更加精确。
在长达二百年的期间内,蒙日问题一直没有被彻底解决,其核心原因在于最优传输映射有可能并不存在。例如,如果源测度集中在一个点上,目标测度集中在多个点上,我们需要将源点劈开,分配给目标点,这时最优传输映射不存在。
康塔洛维奇问题 (Kantorovich Problem)康塔洛维奇将传输映射放松成传输方案,用联合概率分布表示,,
代表从起点
传到终点
的质量。传输方案的边际概率等于
和
,即我们有
这里投影映射 ,
。由此,传输映射成为传输方案的特例,即传输映射诱导了传输方案:
.
康塔洛维奇问题是求代价最小的传输方案:
.
康塔洛维奇问题是线性规划问题。我们可以用单纯形方法、椭球法进行优化。但是,线性规划有内在缺陷:如果最优传输映射存在,那么线性规划找到的最优传输方案中绝大多数的变量是浪费的;同时这种算法没有利用到问题本身的内在结构,因此过于简单粗暴。
图2. 最优传输映射,对应的原像和像点用同样的颜色渲染。
康塔洛维奇对偶问题 (Kantorovich Problem)康塔洛维奇问题的对偶形式揭示了更为丰富的内在结构。这里,我们求两个具有一定正则性的函数,被称为康塔洛维奇的势能函数和
,极大化下面的能量:
.
康塔洛维奇问题的原形式和对偶形式的等价性是基于最优传输方案的一个性质:循环单调性(Cyclic Monotonocity)。我们在最优传输方案的支集内任取点对:,那么我们有不等式:
这里是角标的任意排列。