一、信息熵
1.相对熵
又称互熵,交叉熵,KL散度。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是
相对熵可以度量两个随机变量的“距离”
2.互信息
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
3.信息增益(可用于决策树构建)
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即g(D,A)=H(D)-H(D|A),显然,这即为训练数据集D和特征A的互信息。
二、贝叶斯网络
1.贝叶斯公式