刚开始看ID3、C4.5、CART等算法时,不怎么理解信息熵,后来看了几篇博客时才发现可以拿来解释我们常用的二分类损失函数。
参考:
信息熵
L1\L2正则化与交叉熵、相对熵
机器学习(四)从信息论交叉熵的角度看softmax/逻辑回归损失
一、信息熵
信息熵是拿来消除系统不确定性的,指代的是信息的含量
信息熵的定义公式:
其中,我们一般log以2为底,指代的是单位为bit的信息量
(若对数函数以e为底,单位为奈特(nat);若对数函数以10为底,单位为哈特(hartly))
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为
而汉字常