熵在决策树中起到了绝对作用,贯穿决策树的中心。大家都知道,决策树最重要的就是最优属性选择,这个最优属性选择的标准就是依靠熵,不管是ID3,C4.5还是CART算法都是基于熵来选择最优属性。多说一句,何为最优属性,通俗的讲,属性那么多,依次按属性划分,哪个或者哪些属性是最重要的。对,就是最重要的概念(本人的理解)!!!最重要的先考虑。
通俗介绍决策树中关于熵的理解,包括熵、条件熵、相对熵、互信息以及他们之间关系的推导,通俗理解(后文会继续)。本次只说他们之间的关系。
1. 熵
2. 条件熵
3. 相对熵
4. 互信息
5. 相互关系
1. 熵
样本集合不纯度,熵越小,集合不纯度越低;知识的不确定性,熵越小,不确定性越小。(为什么?下期解说。)
2. 条件熵
H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性。(条件上的理解后续解说)
3. 相对熵
又称互熵、交叉熵、鉴别信息等
设偏p(x)、q(x)是X取值中的两个概率分布,则p(x)对q(x)的相对熵定义:
4. 互信息
两随机变量的公共信息。
两个随机变量X、Y的互信息定义:
如果X、Y相互独立,则上式为0,即X、Y无公共信息。
5. 相互关系
Venn图表示熵、条件熵与互信息之间的关系。
本次简单介绍熵的一些概念,下次继续介绍熵的理解以及后期会有条件熵的理解。