今天看了决策树的一个视频,比以前理解的更深了,《机器学习实战》书上说的还是太浅显,在这里记下自己重新理解的决策树。
在使用决策树的时候,会出现一种情况,当因子很多的特性和因子少的特性相比。决策树选择会偏向因子多的特性,这样会出现过拟合的情况,提高我们的建树难度,树的分支会更多。
原因:因为分类细的情况下,极限情况下有多少组样本就会有多少因子,这样分类过细,混乱程度小,香农熵也会很小,这样信息增益就会很大,选择的几率会更大。产生过拟合现象。
处理方法:C4.5决策树方法,引入一个表示因子多少的量度,和香农熵计算公式一样,把概率改为因子在特性中的比例,加起来的和作为分母,把信息增益作为分子,它们的商叫做增益率。比较增益率的大小作为选择特性的依据。
表示因子多少的量度:两个因子-1/2 * log2(1/2) * 2 三个因子 -1/3 * log2(1/3) * 3 明显3个因子的大,虽然这个例子举得是平均分布的比较简单,能反映出因子多少的这种关系。所以量度因子多少。
PS:支持向量机好难啊,理解了基本原理之后的数学太高深,实在看不懂了,理解SVM的确实凤毛麟角啊。。