1.信息熵
信息论概念:信源中所有可能发生的情况的平均不确定性
设信源有N种取值,对应概率p1,p2...pn,则信息熵为
对数底数一般为2
2.交叉熵
信息论中,用于表征两个变量概率分布PQ(P为真实,Q为模型预测)的差异性
取值越大,两个变量差异越大。
深度学习中,交叉熵可以用来作为神经网络输出的损失函数
3.相对熵(又名KL散度,KLD,信息散度,信息增益)
交叉熵与信息熵的差值,表示用分布Q模拟真实分布P所需要的额外信息
性质:1.不对成性;2.非负性
4.JS散度
为了解决KL散度的不对称性,JS公式为