目录
1 生成模型与判别模型的区别
生成模型:对数据的联合分布 建模,从统计角度表示数据分布与数据生成方式,收敛速度快
常见生成模型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;
判别模型: 对 条件分布 建模,不关心数据生成方式,主要寻找不同类别间的最优分类面
常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;
2 各种距离&散度的度量
2.1 香农熵
1)设P为连续随机变量X的概率分布,则 ,在 X=x 处香农信息量定义为
(当对数以2为底时,信息量的单位为比特;以e为底时,单位为奈特)
2)用于刻画消除X=x 处的不确定性所需的信息量大小
2.2 信息熵
信息熵 是香农信息量
的数学期望,
2.3 交叉熵
假设 用于拟合
的概率分布,
属于
的样本空间;
交叉熵用于衡量 在拟合
时,用于消除不确定性而充分使用的信息量的大小。
2.4 KL散度(相对熵)
假设 用于拟合
的概率分布,
属于
的样本空间;
, KL散度具有非负性。
在GAN中,p为真实数据的分布q为随机噪声生成数据的概率分布,对抗的目的就是让q充分拟合p;若q完全拟合p,则有,若q拟合p不充分则有:(p和q的KL散度)
因此 为信息熵
与交叉熵
的差,衡量q拟合p的过程中产生的信息损耗。
KL散度不对称, , 它并不是q和p的距离
2.5 JS散度
JS散度是对称的,可用于衡量两种不同分布之间的差异。
2.6 Wasserstein距离
度量两个概率分布之间的距离,又叫Earth-Mover距离;
,
其中 表示
与
组合所得的所有可能的联合分布的集合。
对于每一个可能的联合分布 ,可从中采样
得到一个样本
,
为这对样本之间的距离,可计算出该联合分布
下,样本对距离的期望值
, 在所有可能的联合分布中,能对这个期望值取到下界 inf, 即为Wasserstein距离 。
Wasserstein距离 相对于JS散度和KL散度的优势在于:即使两个分布的支撑集没有重叠或重叠非常少,仍然能反映两个分布的远近,而JS散度在此情况下是常量,KL散度可能无意义。