机器学习之决策树

最新推荐文章于 2023-12-17 13:12:22 发布

wykby

最新推荐文章于 2023-12-17 13:12:22 发布

阅读量152

点赞数

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41755555/article/details/84252308

版权

machine learning 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

决策树思想：按特征重要性排序切分，叶子结点都为标注内容，中间结点都为特征
例：
在这里插入图片描述
（图片选自百度百科）
一步一步的按照特征进行判断

关于特征顺序的方法：
1.信息增益 ID3（不能处理连续值）
复习熵条件熵。先将信息增益比较大的进行切分
因为信息增益 = 熵-条件熵，若条件越小，信息增益越大。这样就带来一个问题，某个特征的值多的话，他的条件熵一定就小，那几乎确定了特征值多的那一项为首先切分项。

2.信息增益率 c4.5
信息增益比 = 惩罚参数 * 信息增益
这个思想感觉非常类似于正则化。不直接选择信息增益率最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。

3.Gini系数 CART
将不纯度最低的当做当前切分
有幸在网上找到一篇非常好的文章https://www.cnblogs.com/yonghao/p/5135386.html

决策树的几个问题：
1.连续值切分问题：将特征排序，计算间隔
2过拟合问题：需要进行剪枝. 剪枝分为前剪枝和后剪枝，前剪枝：在构造决策树之前就确定每个叶子结点有多少个样本，直接规定好最大深度；后剪枝，先构造出一个完美的决策树，然后对样本比较悬殊的叶子结点进行修剪，比如一个苹果的酸甜比例是1:100，那就没有判断的必要了，直接按照甜做决策就可以了。

关于熵、条件熵举例计算：https://zhuanlan.zhihu.com/p/26551798

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树

决策树思想：按特征重要性排序切分，叶子结点都为标注内容，中间结点都为特征例：（图片选自百度百科）一步一步的按照特征进行判断关于特征顺序的方法：1.信息增益 ID3（不能处理连续值）复习熵条件熵。先将信息增益比较大的进行切分因为信息增益 = 熵-条件熵，若条件越小，信息增益越大。这样就带来一个问题，某个特征的值多的话，他的条件熵一定就小，那几乎确定了特征值多的那一项为首先切分项...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。