一、最大平均偏差—MMD
对于两份数据集 X = ( x 1 , . . . , x m ) X=(x_1, ... , x_m) X=(x1,...,xm)和 Y = ( y 1 , . . . , y n ) Y=(y_1, ...,y_n) Y=(y1,...,yn)是否服从同一分布。Maximun mean discrepancy (MMD)就是用来解决这一问题。MMD用于评估两份或多份数据是否来自同一分布。
假设 F F F是一类函数 f : χ → R f:\chi \rarr R f:χ→R, X X X和 Y Y Y分别采集自概率分布 p p p和 q q q,于是得到MMD的定义式 M M D [ F , p , q ] : = s u p f ∈ F ( E p [ f ( x ) ] − E q [ f ( y ) ] ) MMD[F,p,q]:=sup_{f∈F}(E_p[f(x)]-E_q[f(y)]) MMD[F,p,q]:=supf∈F(Ep[f(x)]−Eq[f(y)])对于已存在的采样 X , Y X,Y X,Y,我们使用MMD的无偏估计公式 M M D [ F , X , Y ] : = s u p f ∈ F ( 1 m ∑ i = 1 m f ( x i ) − 1 n ∑ i = 1 n f ( y i ) ) MMD[F,X,Y]:=sup_{f∈F}(\frac{1}{m}\sum_{i=1}^mf(x_i)-\frac{1}{n}\sum_{i=1}^nf(y_i)) MMD[F,X,Y]:=supf∈F(m1i=1∑mf(xi)−n1i=1∑nf(yi))
这里介绍的 F F F为核函数。使用核函数可以很容易地计算MMD,并且有能力在没有假设、没有先验知识的前提下计算 p p p和 q q q之间的差异。此时对于一类函数 f : χ → R f:\chi \rarr R f:χ→R<