* 信息增益原理
“熵”:一个物理学概念,表示“一个系统的混乱程度”。系统的不确定性越高,熵就越大
集合D种第k类样本所占比例为pk , 则D的信息熵定义为:
的值越小,则D的纯度越高
链接:里面举的例子特别好 https://blog.csdn.net/it_beecoder/article/details/79554388
当给出一个样本的时候,通过属性a or b 对样本集D进行划分,目的是确认哪一个属性对正负样本的影响更大?
这个时候就要计算<属性a>和<属性b> 的信息增益 。
tip:《机器学习》 P75
这个时候,属性a 的信息增益越大,则意味着使用属性a 分析样本 获得的“纯度”最高 ,也就是正样本最大
例如:正样本是 瓜甜 ,负样本是瓜不甜 <属性a> 是色泽 :0.5 <属性b>是敲声:0.4
>此时 说用属性a可以更好反映瓜甜