能消除不确定性的内容才能叫信息
信息量的公式:
熵是平均意义上对随机变量的编码长度,即信息量的期望:
例如抛硬币和掷骰子的熵:
在计算机中表示抛硬币结果需要1 bit,表示掷骰子结果需要log6 bit(实际向上取整3 bit)
必然事件的熵是0,必然事件没有不确定性,不含有信息量;信息越有用信息熵越大,不可为负数。同时也代表信息的压缩大小,一段话里面有重复的,把重复的去掉就等于压缩,压缩的极限就是信息熵。
信息熵是在信息的基础上,将有可能产生的信息定义为一个随机变量,
那么变量的期望就是信息熵,比如有两个取值,两个都有自己的信息,
分别乘以概率再求和,就得到了事情的信息熵:
信息增益是决策树中 ID3 算法用来特征选择的方法,
用整体的信息熵减掉按某一特征分裂后的条件熵,结果越大说明此特征越能消除不确定性,
最极端的情况,按这个特征分裂后信息增益与信息熵一模一样,则该特征就能获得唯一结果。
条件熵:
信息增益率是在信息增益的基础上,增加一个选取的特征包含的类别的惩罚项,
主要是考虑到信息增益会导致包含类别越多的特征的信息增益越大,
极端一点有多少个样本,这个特征就有多少个类别,那么就会导致决策树非常浅
基尼系数也是衡量信息不确定性的方法,与信息熵计算的结果差距很小,基本可以忽略,
但是基尼系数要计算快得多,因为没有对数;
与信息熵一样,当类别概率趋于平均时,基尼系数越大
互信息:
如抛硬币100次,90次为正,10词为负,其信息熵为
而正常抛硬币的信息熵应该是1,这里的差值为0.531,就是互信息;推导互信息的公式:
H(X)表示为原随机变量的信息量, H(X|Y)为知道事实 Y后的信息量,
互信息 I(X;Y)则表示为知道事实 Y 后,原来信息量减少了多少。
如果随机变量 X, Y独立,则互信息是0,即知道事实Y 并没有减少 X的信息量,独立即互不影响。
KL散度:
P(x)为正式样本分布,Q(x)代表预测样本分布。
KL散度越小,表示与P(x)更加接近,可以通过反复训练Q(x)来使Q(x)的分布逼近P(x)。
三分类任务,X1,X2,X3 分别代表猫,狗,马图片,一张猫的图片真实分布P(X)=[1,0,0],预测分布Q(X)=[0.7,0.2,0.1],计算KL散度:
参考:
决策树①——信息熵&信息增益&基尼系数_cindy407的博客-CSDN博客_决策树信息熵