信息、信息量、信息熵、互信息、基尼系数、信息增益、KL散度

能消除不确定性的内容才能叫信息

信息量的公式:

熵是平均意义上对随机变量的编码长度,即信息量的期望:

        例如抛硬币和掷骰子的熵:

        

         在计算机中表示抛硬币结果需要1 bit,表示掷骰子结果需要log6 bit(实际向上取整3 bit)

        

必然事件的熵是0,必然事件没有不确定性,不含有信息量;信息越有用信息熵越大,不可为负数。同时也代表信息的压缩大小,一段话里面有重复的,把重复的去掉就等于压缩,压缩的极限就是信息熵。

信息熵是在信息的基础上,将有可能产生的信息定义为一个随机变量,

那么变量的期望就是信息熵,比如有两个取值,两个都有自己的信息,

分别乘以概率再求和,就得到了事情的信息熵

信息增益是决策树中 ID3 算法用来特征选择的方法,

用整体的信息熵减掉按某一特征分裂后的条件熵,结果越大说明此特征越能消除不确定性,

最极端的情况,按这个特征分裂后信息增益与信息熵一模一样,则该特征就能获得唯一结果。

条件熵:

信息增益率是在信息增益的基础上,增加一个选取的特征包含的类别的惩罚项,

主要是考虑到信息增益会导致包含类别越多的特征的信息增益越大,

极端一点有多少个样本,这个特征就有多少个类别,那么就会导致决策树非常浅

基尼系数也是衡量信息不确定性的方法,与信息熵计算的结果差距很小,基本可以忽略,

但是基尼系数要计算快得多,因为没有对数;

与信息熵一样,当类别概率趋于平均时,基尼系数越大

互信息:

        

如抛硬币100次,90次为正,10词为负,其信息熵为

而正常抛硬币的信息熵应该是1,这里的差值为0.531,就是互信息;推导互信息的公式:

H(X)表示为原随机变量的信息量, H(X|Y)为知道事实 Y后的信息量,

互信息 I(X;Y)则表示为知道事实 Y 后,原来信息量减少了多少。 

如果随机变量 X, Y独立,则互信息是0,即知道事实Y 并没有减少 X的信息量,独立即互不影响。

KL散度:

P(x)为正式样本分布,Q(x)代表预测样本分布。

KL散度越小,表示与P(x)更加接近,可以通过反复训练Q(x)来使Q(x)的分布逼近P(x)。

三分类任务,X1,X2,X3 分别代表猫,狗,马图片,一张猫的图片真实分布P(X)=[1,0,0],预测分布Q(X)=[0.7,0.2,0.1],计算KL散度:

参考:

决策树①——信息熵&信息增益&基尼系数_cindy407的博客-CSDN博客_决策树信息熵

https://zhuanlan.zhihu.com/p/36192699

【Deep Learning】Softmax和交叉熵损失函数_pangpd的博客-CSDN博客_softmax 交叉熵

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值