最大均值差异（MMD）的介绍

SCUT-Chung

已于 2023-12-11 13:48:11 修改

阅读量4.5k

点赞数 20

文章标签：算法机器学习

于 2023-05-28 01:53:23 首次发布

本文链接：https://blog.csdn.net/m0_46861439/article/details/130426473

版权

0.故事缘由

本文内容主要来自于我的本科毕业设计初稿，被痛批太过口语化、繁琐而删除了一大截，想着不如写在这里以纪念我这么几周的痛苦经历。
Adversity reveals genius; fortune conceals it.

1.最大均值差异MMD

1.0 本节结构与总起

MMD是度量方法的一种，用来评估两个分布之间的相似度，取值为 [0,inf)，当且仅当两个分布相同的时候为0。其他的度量方法还有KL散度、余弦相似度等，但MMD是最广泛运用的。

本节将由核函数讲起，介绍核矩阵在无限维基底下的表达式，接着，介绍可再生希尔伯特空间并证明它的可再生性，最后介绍定义在再生希尔伯特空间上的MMD，结合可再生性给出它的经验表达式。

1.1 核函数

核函数有两个作用：
$\quad 1.将低维数据映射到高维空间，使得原来难以完成线性分类的数据变得线性可分；$
$\quad 2.避免内积运算；$

在这里插入图片描述
如上图所示的XOR问题就是一个经典例子，这导致了神经网络的前身 —— 感知机研发的寒潮。运用核函数解决这个问题的方法如下：

原数据处于二维平面，平面的两个维度记为 $x 1, x 2$ ，取其中的一个样本 $x=\left(2,3\right)\in\mathbb{R}^2$ ,
其中2为点x在 $x_1$ 这个维度上的分量，3为点x在 $x_2$ 这个维度上的分量，如果使用这样的一个函数 $\phi(x):\mathbb{R}^2 \rightarrow\mathbb{R}^3$ ，如:
$\phi\left(x\right)=\left[x_1,{\ x}_2,{\ x}_1x_2\right]\in\mathbb{R}^3$
可以得到样本被映射到高维度后的新坐标 $\left(2,\ 3,\ 2\ast3\right)=\left(2,\ 3,\ 6\right)$ ，对每一个数据点都使用这样的变换，便可以得到如右所示的三维数据图，显然地，可以通过如图所示的一个超平面（不唯一）来做到线性分类。

1.1.1 内积

在具体地给出核函数的定义之前，我觉得有必要先解释内积，因为这是核函数定义的一部分。
内积：如果 $\mathcal{H}$ 是 $\mathbb{R}$ 上的一个向量空间，一个函数 $< \cdot,\cdot >: H \times H \to R$ 被称作在 $\mathcal{H}$ 上的内积，如果它满足：
$\qquad 1. <\alpha_1x_1+\alpha_2x_2,\ \ y>_\mathcal{H}\ =$ $\alpha_1<x_1,\ \ y>_\mathcal{H}\ +\ \alpha_2\ <x_2,\ \ y>_\mathcal{H}$
$\qquad 2. <x,\ \ y>_{\mathcal{H}\ }=\ <y,\ \ x>_{\mathcal{H}\ }$
$\qquad 3. <x,\ \ x>_{\mathcal{H}\ }\ \geq0\ ,\ \ <x,x>_{\mathcal{H}\ }=0\ 当且仅当 f=0$
内积有多种定义，在实空间中，有标准内积、欧几里得内积、切比雪夫内积、曼哈顿内积等等，本文使用标准内积来定义内积，即：
对于两个向量 $x=\left(x_1,x_2,\ldots,x_n\right)$ 和 $y=\left(y_1,y_2,\ldots,y_n\right)$ ,
$<{x},{y}>=\sum_{i=1}^{n}x_iy_i$

1.1.2 希尔伯特空间

具体的介绍是不可能的，本人不是数学系的学生，但大致的，可以参考下面的这张图，一步步的定义可参考https://sakigami-yang.me/2017/08/13/about-kernel-02/
在这里插入图片描述

在下文中常出现的希尔伯特空间 (Hilbert space) 是一个完备的内积空间，所谓的完备是指在该空间中，任意一个柯西序列都收敛，并且收敛值也必须在希尔伯特空间中。
而将点映射到希尔伯特空间实际上是将点映射到无穷维空间中的向量。

1.1.3 核函数的正式定义1

核函数：给定一个非空集合 $\mathcal{X}$ ，方程 $k:\mathcal{X}\times\ \mathcal{X}\rightarrow\mathbb{R}$ ，如果存在一个实希尔伯特空间 ( $\mathbb{R}$ -Hilbert space，实希尔伯特空间因其上的内积的定义的不同而不同) 和一个映射 $\phi (x): \mathcal{X} \rightarrow \mathcal{H}$ ，使得 $\forall x, x' \in \mathcal{X}$ ,
$k(x,x')≔<ϕ(x),ϕ(x')>_{\mathcal{H}}$
并且满足对称性和正定性：
$\qquad 1.对称性：k\left(x,x^\prime\right)=k\left(x^\prime,x\right)$
$\qquad 2.正定性：\forall x,x^\prime\in\mathcal{X},\forall c_i,c_j\in\mathbb{R}\ ，\sum_{i=1}^{n}{\sum_{j=1}^{n}{c_ic_j}k\left(x,x^\prime\right)}\geq0$
那么便可将这样的函数称作核函数。
有正式定义1便有正式定义2，（一家说法）但正式定义2里的 $K (x, y)$ 是建立于正式定义1里的 $k (x, y)$ 的基础上， $K (x, y)$ 表示任意两点进行核函数运算后的结果，一般情况下认为它是个无穷维矩阵
$K(x,y)=\begin{pmatrix} k(x_1,y_1) & k(x_1,y_2) & ...&k(x_1,y_n) & ...\\ k(x_2,y_1) & k(x_2,y_2) & ...&k(x_2,y_n) & ...\\ ...&...&...&...\\ k(x_m,y_1) & k(x_m,y_2) & ...&k(x_m,y_n) & ...\\ ...&...&...&...\\ \end{pmatrix}$
更正式的定义留在后面。

1.1.4 观点建立：函数等于一个无穷维向量

在这里插入图片描述
给定一个定义在区间 $[a, b]$ 上的函数 $f\left(x\right)$ ，函数 $f\left(x\right)$ 意味着区间 $\left[a,b\right]$ 中的所有点进行映射，如果以间距 $\Delta x$ 来取 n个点 $\left[x_1,x_2,\ldots,x_n\right],∀i,x_i∈[a,b]$ ，这些点经过f的作用后变成 $\left[f(x_1),f(x_2),\ldots,{f(x}_n)\right]$ 这么一个维度为n的向量，那么当 $\Delta x\ \rightarrow 0$ ，这个向量自然变成无穷维度。

这就好比你在python里面，这般写法：

import numpy as np
def function(x):
	result=2*x*x+7*x-10
	return result
vector=[]
a=1
b=2
#随着deltax的不断减少，vector的长度会不断上升，直至正无穷
deltax=0.01
for i in np.arange(a,b,deltax):
	vector.append(function(i))

print(len(vector))
print(vector)

1.1.4.5 约定熟成的表示方法

上面我们已经了解了：一个函数等价于一个无限维向量
自下开始，我们使用如下的表示方法：

f：表示函数本身（参考向量的表示如，a=（1，2，3））
f(x)：表示函数在点x上的函数值
f(·)：表示一个算子

1.1.5 无穷维向量的内积

与向量的标准内积类似地，本文可以在这里定义函数的内积[7]，即：
给定两个定义于区间 $\left[a,b\right]$ 上的两个函数 $f\left(x\right),g\left(x\right)$ ，若以间距 $\Delta x$ 来取点，则
$<f,g>=\lim _{{\mathrm{\Delta x}\ \rightarrow 0}} {\sum_{i} f\left(x_i\right)g\left(x_i\right)\mathrm{\Delta x}\ =}\int{f\left(x\right)g\left(x\right)\ dx}$

在知道无穷维向量的内积，也就是函数的内积之后，我们便可以正式地介绍核函数的正式定义2了。

1.1.6 核函数的正式定义2

给定一个函数空间中的无穷维矩阵 $K\left(x,y\right)$ ，如果它满足
$\qquad 1.对称性：K\left(x,y\right)=K\left(y,x\right)$
$\qquad 2.正定性：\forall f,\ \ \iint{f\left(x\right)K\left(x,y\right)f\left(y\right)dxdy\geq0}$
那么称这个无穷维矩阵 $K\left(x,y\right)$ 是一个核函数

1.1.7 无限维矩阵与其无限维基底

1.1.7.1 有限维矩阵

先回顾一遍对有限维度矩阵的处理
对一个n阶实对称阵A，存在特征值与特征向量x，使得
$Ax=\lambda x$
对于两不相等的特征值 $\lambda_1 \neq \lambda_2$ ，有

$\begin{aligned} {\lambda}_1 x_1^ T x_2 &= x_1^ T A^ T x_2 \\ &= x_1^ T A x_2 \\ & = x_1^ T (A x_2)\\ &= x_1^T{\lambda}_2 x_2\\ &={\lambda}_2 x_1^ T x_2 \end{aligned}$

但 $\lambda_1 \neq \lambda_2$ ，于是 $x_1^ T x_2=0$

1.1.7.2 无限维矩阵

由于A是实对称阵，实对称阵必相似于对角矩阵，对n个特征值 $(\lambda_1, \lambda_2,... \lambda_n)$ ，可以找到n个正交的特征向量 $q_1,q_2,...,q_n)$

类似于矩阵的特征值核特征向量，核函数（定义二里面的无限维矩阵）也存在着特征值和特征函数：
$\int K(x,y)φ(x)dx=λφ(x）$
于是，对于不同的特征值，可以得到不同的特征值对应的特征向量（前面已经提到函数可以视作一个向量）是相互正交的，即有，
$<\varphi_i,φ_j>=0, \quad if \quad i≠j$
于是可以得到一个核函数对应于无穷多个特征值 $\{ {\lambda}_i \}_{i=1}^{\infty}$ 与无穷多个特征函数 $\{ {\varphi}_i \}_{i=1}^{\infty}$ 。

1.2 再生希尔伯特空间

1.2.1 希尔伯特空间补充

希尔伯特空间 (Hilbert space) 是一个完备的内积空间，所谓的完备是指在该空间中，任意一个柯西序列都收敛，并且收敛值也必须在希尔伯特空间中。而将点映射到希尔伯特空间实际上是将点映射到无穷维空间中的向量。

“将点映射到希尔伯特空间实际上是将点映射到无穷维空间中的向量"，这点在本文不给予证明，需要用到泛函分析的东西。大致的逻辑是：我们是通过一种叫特征映射（feature map）的函数将点映射到希尔伯特空间上，而这些函数都满足Mercer条件，由Mercer定理，我们知道任何半正定核函数都可以用于将输入点映射到希尔伯特空间中的向量。
经典的特征映射函数有高斯核函数…

在这里插入图片描述

1.2.2 再生希尔伯特空间(RKHS)

再生希尔伯特空间是希尔伯特空间的一个子集。
希尔伯特空间所有的元素都是函数，而再生希尔伯特空间中的所有元素额外满足可再生性。

1.2.2 可再生性

这是可再生希尔伯特空间的一个性质，但个人看到过两种表述
下面出现的 $K (x,\cdot)$ 表示无限维矩阵K的第x行

1.2.2.1 可再生性表述1

对于任意的函数 $f \in R KH S$ 和输入点 $x \in X$
$< f, K (x,\cdot) >= f (x)$
这是最主要的写法，比如在下面的MMD推导里用的就是这种。

额外地，可以用用这个来验证一个核函数是否属于RKHS，如
首先，我们有：
$y)=\sum_{i=1}^{∞}λ_i φ_i(x) φ_i(y)$
$f(x)=\sum_{i=1}^{∞} f_i \sqrt{\lambda_i} φ_i(x)$

于是：
$\int f(y) K(x, y) dy$

将判断 ${\quad }? {\quad }< f, K(x, ·) >$
等于号则表示该核函数属于RKHS

1.2.2.2 可再生性表述2

${\sum_{i} ^{∞}}λ_i φ_i(x) φ_i(y)=K(x,y)$

首先 $K (x,\cdot)$ 表示固定x之后的一维向量，长度无限
${\sum_{i} ^{∞}}λ_i φ_i(x) φ_i$
${\sum_{i} ^{∞}}λ_i φ_i(y) φ_i$

于是，以无穷多个特征函数 $\{ {\varphi}_i \}_{i=1}^{\infty}$ 为基底，可以表示 $K (x,\cdot)$ 为 $φ_1(x),φ_2(x),...)^T$ ，同理，可以表示 $K (\cdot, y)$ 为 $φ_1(y),φ_2(y),...)^T$
于是

${\sum_{i} ^{∞}}λ_i φ_i(x) φ_i(y)=K(x,y)$

1.2.2.3二者合一

大佬博客中只给出了一种，我想了下其实两种表达是一致的

重复一次：
$f(x)=\sum_{i=1}^{∞} f_i \sqrt{\lambda_i} φ_i(x)$
${\sum_{i} ^{∞}}λ_i φ_i(x) φ_i$
${\sum_{i} ^{∞}}λ_i φ_i(y) φ_i$
其中， $f (x)$ 是一个数值， $K (x,\cdot)$ 是一个一维无穷向量，可以视为一个一维函数（未知量是y，而不是已经固定的x）
下面尝试说明 $K (\cdot, y)$ 可以视作 $f$ ：
$f=\sum_{i=1}^{∞} f_i \sqrt{\lambda_i} φ_i$
${\sum_{i} ^{∞}}λ_i φ_i(y) φ_i={\sum_{i} ^{∞}} [\sqrt {λ}_i φ_i(y) ]\sqrt {λ}φ_i$

若 $\sqrt {λ}_i φ_i(y) =f_i$ ，显然，二者将相同，如若不同也可以通过乘除一个值来达到表示的效果
因而二者一致

1.3 最大均值差异MMD

$MMD\left[\mathcal{F},p,q\right]=\sup_{\left|\left|f\right|\right|_\mathcal{H}\le1} (E_p\left[f\left(x\right)\right]-E_q[f(y)])$
其中， $p, q$ 表示两份数据满足地概率分布， $\left|\left|f\right|\right|_\mathcal{H}\le1$ 表示函数域 $\mathcal{F}$ 被定义成再生希尔伯特空间中的单位球内的一个任意向量，这么定义是为了避免两个分布的MMD距离无限大， $f\left(x\right)$ 表示将x映射成希尔伯特空间中的无限维向量。

$\begin{aligned} E_p[f(x)]&=\int P(x) f(x) dx\\ &=\int P(x) <f, K(x, ·)>_{\mathcal{H}}dx\\ &=<\int P(x)K(x, ·)dx, ϕ(x) >_{\mathcal{H}}\\ &≔<μp,f>_{\mathcal{H}} \end{aligned}$

即我们定义了 $\mu_p:= \int P(x) K(x, ·)dx$ ，其实这项叫核均值嵌入KME，但我看不懂，可参考

进而，
$\begin{aligned} MMD\left[p\ ,\ q\ ,\mathcal{H}\right]&=\sup_{\left|\left|f\right|\right|_\mathcal{H}\le1}(E_pf(x)-E_qf(y))\\ &=\sup_{\left|\left|f\right|\right|_\mathcal{H}\le1} <\mu_p-\mu_q,f>_{\mathcal{H}} \end{aligned}$
注意到， $<\mu_p-\mu_q,f>_{\mathcal{H}} ≤||μ_p-μ_q||_{\mathcal{H}}||f||_{\mathcal{H}}$ ,在 $f ∝ μ_p-μ_q$ 时等号成立，于是
${\mathcal {H}} ]=||μ_p-μ_q||_{\mathcal{H}}$

但是 $\mu_p$ 和 $μ_q$ 一般是不知道的，而由于期望是无偏估计，于是我们可以考虑用经验值来代替，假设 $\sim p$ , $\sim q$ ，从中分别采样出n与m个样本，有：
$MMD\left[p\ ,\ q\ ,\mathcal{H}\right]=||\ \frac{1}{n}\sum_{i=1}^{n}f\left(x_i\right)- \ \frac{1}{m}\sum_{j=1}^{m}f\left(y_j\right)||_{\mathcal{H}}$

2.KME核均值嵌入

ref: 主要是KME的wiki词条

2.1.BG：

分布分析是ML和统计学习的基础，这块主要依赖于信息论的方法，如熵、互信息、KL散度等。然而为了估计这些量必须先进行密度估计，或采用复杂的空间划分/偏差校正等策略，这些对于高维数据来说是不可行的。另一点是对复杂分布建模的方法所依赖的参数假设可能是没有根据的、或是在计算上不大可行的，至于非参数方法，如核密度估计或者特征函数表示（通过分布的傅里叶变化）在高位设置中会崩溃。
但基于分布的核嵌入方法则避开了这些问题，并且有以下的有点：

①.数据可以在没有关于分布形式于变量之间的关系等方面的限制性假设的情况下建模；
②.无需进行中间密度估计
③.使用者可以指定于他们的问题最相关的分布的属性（这一点可以通过选择核函数以结合先验知识）
④.如果使用了特征核函数（上面有提到），那么（对应的）embedding可以唯一地保留关于分布地信息，而由于核技巧的使用，在实际使用的时候可以将潜在的无限维RKHS的计算以简单的Gram矩阵运算的方式实现
⑤.可以证明：经验核均值（使用分布中的样本估计）到真实底层分布的核嵌入的维数无关的收敛率（没看懂）；
⑥.基于该框架的学习算法表现出良好的泛化能力和良好的有限样本收敛性，同时往往比信息论的方法更加有效

2.2 definition

3 现代数字信号处理（可能有关）

逻辑是这样的，首先我有一批数据，现在我假定我搞到了一个比较好的模型（比如高斯，泊松），就只剩下了弄一个估计从数据中来认识参数的需求，于是提出了充分统计量，它包含了数据中所有的与参数有关的信息，这是一个很初步的需求，进一步的需求是无偏性，再进一步是MSE要足够的小，而再充分统计量和无偏的基础上，在上一个估计θ0的情况下对其做改进得到的θ1，就MSE而言，θ1效果比θ0好；

这个逻辑就很对域适应中对伪标签的作用

接着提出充分完备统计可以一步到位达到改进的头，然后用Cramer-Rao可以得到这个改进的终点的具体数值。

所以接着看，现在dl的方向中的基于无监督的zero/few shot，我猜测其原理和充分完备统计有关，并且方向还是达到Cramer-Rao界