机器学习day11 机器学习实战重新理解决策树与C4.5

今天看了决策树的一个视频,比以前理解的更深了,《机器学习实战》书上说的还是太浅显,在这里记下自己重新理解的决策树。

在使用决策树的时候,会出现一种情况,当因子很多的特性和因子少的特性相比。决策树选择会偏向因子多的特性,这样会出现过拟合的情况,提高我们的建树难度,树的分支会更多。

原因:因为分类细的情况下,极限情况下有多少组样本就会有多少因子,这样分类过细,混乱程度小,香农熵也会很小,这样信息增益就会很大,选择的几率会更大。产生过拟合现象。

处理方法:C4.5决策树方法,引入一个表示因子多少的量度,和香农熵计算公式一样,把概率改为因子在特性中的比例,加起来的和作为分母,把信息增益作为分子,它们的商叫做增益率。比较增益率的大小作为选择特性的依据。

表示因子多少的量度:两个因子-1/2 * log2(1/2) * 2 三个因子 -1/3 * log2(1/3) * 3 明显3个因子的大,虽然这个例子举得是平均分布的比较简单,能反映出因子多少的这种关系。所以量度因子多少。

PS:支持向量机好难啊,理解了基本原理之后的数学太高深,实在看不懂了,理解SVM的确实凤毛麟角啊。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值