一、预备知识
1、信息熵
H(p) = (可以从,信息量相加就是独立随机事件相乘来理解,所以需要取对数),熵entropy这个词本身代表不确定性的意思,而不确定性越大,信息量则越大。
2、条件熵
H(D|A)=,pi表示某一子集占统计量的比列,H(Di)为该子集的信息量
3、信息增益
g(D,A) = H(D) - H(D|A)
4、信息增益比
g(D,A) /H(D|A)
二、ID3和C4.5算法
两个算法都很简单,就是每次对数据集遍历其特征,ID3根据选择的特征计算信息增益,选择使信息增益最大的划分特征。
C4.5选择信息增益比最大的特征划分,直到达到停止条件。
三、Python实现
最近比较忙,等有时间了在写一下