决策树 Decision Tree

最新推荐文章于 2024-07-24 09:07:53 发布

一定会瘦的Hayley

最新推荐文章于 2024-07-24 09:07:53 发布

阅读量187

点赞数

分类专栏： Deep Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38191232/article/details/80646665

版权

Deep Learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

决策树 Decision Tree是一个重要Supervise Learning算法。

0 相关基础知识

0.1 Machine Learning对于分类和预测算法的评估：

准确率Accuracy：顾名思义，监督学习说明已有标签

速度Velocity：一定程度上体现了复杂率

鲁棒性Robustness：如果缺失部分数值，是否还能效果好

规模性Scale：数据集大小规模

可解释性Interpretability：特征值的解释和归类

eg. 属性（特征）的描述可以是离散的，比如颜色可以是红黄蓝，或者用数字理解可以为0与1；但标签也可能是连续的，譬如数值，这时需要连续变量离散化，即设置阈值。

0.2 熵 Entropy

Wiki：熵被用于计算一个系统中的失序现象，也就是计算该系统混乱的程度。

变量不确定性越大，熵越大。

单个属性值的熵的计算：P(x)*log2(P(x)) - （P(x)为相应概率）

1 几种决策树算法

决策树顾名思义就是把原始的sample转变为一棵树。

原始的信息是一张表格，每个样本对于不同的属性有不同的描述，问题是，如何知道把哪一种属性当作每一层树叶，即，如何选择树的节点？

不同的属性选择度量方法也就形成了不同的决策树算法。

停止条件：

针对一个属性，classification一致。

属性全部用完，最后一个用多数表决（majority）的方法确定classification。

1.1 决策树归纳算法（ID3）

ID3引入了Information Gain的概念: 信息获取量/增益

Gain(A) = Infor(D) - Infor_A(D)

Infor(D)：针对最终的classification，计算一个信息数值。

Infor(D)=-sum(P*log2(P))

Infor_A(D)：针对属性A，计算一个信息数值。

最终选择当前最大的Gain(A)作为当前节点，并且在下一个分类中就不再考虑这个节点啦。

1.2 C4.5

引入概念gain ratio

1.3 CART(Classification and regression trees)

引入概念gini index

2 决策树算法overfitting问题

overfitting问题体现在属性分类太细，在训练集上表现地好，但是测试机上效果不完美。

解决方法：

先剪枝（准确率/纯度达到一定的数值，就不再分了） - 这里有点疑问，我会再研究一下，晚点来解释。

后剪枝（画完整张图，再整体剪去一部分）

3 决策树算法优缺点

直观，便于理解，小规模数据集有效

连续变量不太好（对阈值选择敏感度大），类别较多时效果不好，大规模数据集不太好

==============

后面会进行对应的python实操，至于会不会更新在这里，我也不知道，就看我觉得有没有必要吧hhhh。

欢迎讨论（虽然我知道这玩意儿这么简单也没啥讨论的）。

一定会瘦的Hayley

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。