机器学习day11 机器学习实战重新理解决策树与C4.5

flowertree花树

于 2016-03-28 13:27:16 发布

阅读量296

点赞数

分类专栏：机器学习 python 文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fuyan159357/article/details/50997103

版权

机器学习同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

今天看了决策树的一个视频，比以前理解的更深了，《机器学习实战》书上说的还是太浅显，在这里记下自己重新理解的决策树。

在使用决策树的时候，会出现一种情况，当因子很多的特性和因子少的特性相比。决策树选择会偏向因子多的特性，这样会出现过拟合的情况，提高我们的建树难度，树的分支会更多。

原因：因为分类细的情况下，极限情况下有多少组样本就会有多少因子，这样分类过细，混乱程度小，香农熵也会很小，这样信息增益就会很大，选择的几率会更大。产生过拟合现象。

处理方法：C4.5决策树方法，引入一个表示因子多少的量度，和香农熵计算公式一样，把概率改为因子在特性中的比例，加起来的和作为分母，把信息增益作为分子，它们的商叫做增益率。比较增益率的大小作为选择特性的依据。

表示因子多少的量度：两个因子-1/2 * log2(1/2) * 2 三个因子 -1/3 * log2(1/3) * 3 明显3个因子的大，虽然这个例子举得是平均分布的比较简单，能反映出因子多少的这种关系。所以量度因子多少。

PS：支持向量机好难啊，理解了基本原理之后的数学太高深，实在看不懂了，理解SVM的确实凤毛麟角啊。。

flowertree花树

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习day11 机器学习实战重新理解决策树与C4.5

今天看了决策树的一个视频，比以前理解的更深了，《机器学习实战》书上说的还是太浅显，在这里记下自己重新理解的决策树。在使用决策树的时候，会出现一种情况，当因子很多的特性和因子少的特性相比。决策树选择会偏向因子多的特性，这样会出现过拟合的情况，提高我们的建树难度，树的分支会更多。原因：因为分类细的情况下，极限情况下有多少组样本就会有多少因子，这样分类过细，混乱程度小，香农熵也会很小，这样信息增
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。