解决的问题
假设有两组观测到的样本集X={x1,x2,…xn}和Y={y1,y2,…yn}分别独立同分布采样自分布 p 和分布 q;
如何通过 X和 Y 判断分布 p 和 q 是否相同?
定义
- 基于经验的运算
F:在样本空间上的函数集合
- 经验估计
过程:
(1) 需要一个映射函数f∈F:把样本集X和Y中的所有样本映射至对应的函数值;
(2)分别计算它们的均值做差得到一个均值差异;
MMD 的目标:
寻找一个映射函数 f,使得上述均值差异最大
函数集合F分析:
F需要足够丰富:确保其中一定存在一个函数,使得当均值差异最大时,分布 p和q相等;
F需要一定限制:确保可以从有限的样本中获得有效的估计;
最合适的F:普适的再生核希尔伯特空间(Universal RKHS)中的单位球(Unit Ball)
简化MMD计算
- 分布的均值嵌入
k(·,·):核函数
up的存在需要满足一定的条件,如果存在则是空间中的一个点
- MMD计算
- MMD经验估计