(1) 特征选择
a. 信息增益:特征A对训练数据集D的信息增益g(D,A),定义为D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即g(D,A)= H(D)- H(D|A):
b.信息增益比:信息增益g(D,A)与训练数据集D个关于特征A的值的熵HA(D)之比,其中HA(D)为
(2)ID3算法
基本思想:以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。
缺点:偏向于多值属性。
(3)C4.5算法
基本思想:与ID3类似,以信息增益比度量属性选择。
缺点:与ID3一样,只有树的生成,容易产生过拟合。
(4)剪枝(有点难,网上有很多开源的python,R库,实现起来很简单)。