白话机器学习算法（十八）决策树

最新推荐文章于 2024-05-10 17:08:40 发布

wangxin110000

最新推荐文章于 2024-05-10 17:08:40 发布

阅读量1.7k

点赞数 1

分类专栏：机器学习/数据挖掘文章标签：决策树 ID3 C4.5 信息增益率信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangxin110000/article/details/23655761

版权

机器学习/数据挖掘专栏收录该内容

23 篇文章 2 订阅

订阅专栏

前面说了条件熵，对于AB两个变量，我们知道了B便可以缩小A的范围，B能给我们减少A的不确定性；

决策树就是这样一种规则，当我知道了向量的所有属性的时候，他的类别就确定了，每多知道一个属性，这个向量的所属范围便缩小一部分。

“决策树学习本质上是从训练数据集中归纳出一组分类规则，与训练数据集不相矛盾的决策树可能有多个，也可能一个都没有，我们需要找的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。”摘自《统计学习方法》

决策树主要分为三个步骤：

1）属性选择

2）节点生成

3）剪枝

在属性选择方面，主要有信息增益，与信息增益比

信息增益：

H(D)-H(D|A)表示在知道A以后，D的熵减少的量；

g（D , A）=H(D) - H(D|A)

用这种方法，存在选取那些取值较多的特征，为什么？最直观的解释是，当A的取值范围较多，每个取值对应的空间便很小，当知道了A的取值，那么便将整个搜索空间压缩到了一个很小的范围内去确定数据最后的分类，也就是知道A的值最能减少D的不确定性；

为改进这个问题提出了信息增益比

信息增益比：

我们知道一个分布便对应一个熵，一个分类号，一个属性都可以对应一个熵

g（D , A）/ H(A) = 信息增益比

当H（A）比较大，即A属性的取值较多，会使得信息增益比降低，这相当于一个正则因子，抑制选取“选取那些取值较多的特征”这样一个趋势；

ID3即选择信息增益作为节点选择的依据，而C4.5选择信息增益比；

决策树的核心除了属性选择，便是剪枝了！

当训练集合相容的时候，即训练集合中没有矛盾项，那么训练出的决策树在训练集中可以有很高的正确率，但是随着树的复杂度增加，树的泛化性便变弱，复杂性与泛化性总是一对矛盾体，在SVM中便有正则化因子来抑制模型的复杂度，以达到较好的泛化性；

决策树也是这么做的，在误差选项上加上一个正则因子：叶子节点数目（叶子节点越多说明树越复杂），利用动态规划的方法寻找在决策误差与模型复杂度之间的最佳权衡；

决策误差与叶子节点（模型复杂度）之间是个矛盾的关系，决策误差小了，那么模型复杂度会上升，反之也是，通过调节正则化参数的系数，系数越大说明你越看重模型的泛化性，系数为0说明你只看重训练集上的正确率；

程序中通过从下到上剪枝，剪枝以后模型复杂度降低，但是误差上升，通过比较剪枝前后，总误差函数的大小决定是否剪枝；

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
白话机器学习算法（十八）决策树

决策树主要分为三个步骤：1）属性选择2）节点生成3）剪枝在属性选择方面，主要有信息增益，与信息增益比信息增益：H(D)-H(D|A)表示在知道A以后，D的熵减少的量；g（D , A）=H(D) - H(D|A)用这种方法，存在选取那些取值较多的特征，为什么？最直观的解释是，当A的取值范围较多，每个取值对应的空间便很小，当知道了A的取值，那么便将整个搜索空间压缩到了一个很小的范围内去确定数据最后的分类，也就是知道A的值最能减少D的不确定性；
复制链接

扫一扫

专栏目录

wangxin110000 CSDN认证博客专家 CSDN认证企业博客

码龄14年

82: 原创

9万+: 周排名

86万+: 总排名

12万+: 访问

: 等级

2088: 积分

98: 粉丝

29: 获赞

7: 评论

116: 收藏

私信

关注

热门文章

分类专栏

最新评论

白话机器学习算法（二十二）Adaboost
skipper-f: 就像评委表决一样，很形象
白话机器学习算法（十一） EM（附三个硬币模型代码）
jerriaemail: u[i]=thetaTemp.pi*pow(thetaTemp.p,pData[i])*pow(1-thetaTemp.p,pData[i])这个代码我的理解应该是： u[i]=thetaTemp.pi*pow(thetaTemp.p,pData[i])*pow(1-thetaTemp.p,1-pData[i]) 不知对否？
白话机器学习算法（六） PCA
wangxin110000 回复 leochow11: 点在b上的投影可以表示这些数据的大概分布，PCA采用的是忽略那些在坐标投影方差较小的坐标，比如这些数据在a的方向上投影都集中在某个较小的区域，说明投影在a的方差较小，可以忽略a，可以用在数据降维上

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。