03 decision tree（决策树）

叮咚Zz

已于 2024-01-03 20:26:55 修改

阅读量1.6k

点赞数 47

分类专栏：深度学习文章标签：决策树算法机器学习

于 2024-01-03 20:25:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asdfasaa/article/details/135372357

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、decision tree（决策树）

1. classification problems（纯度）

i . entropy （熵）

作用：衡量一组数据的纯度是否很纯，当五五开时他的熵都是最高的，当全是或者都不是时熵为 0

在这里插入图片描述

i i . information gain （信息增益）

父节点到子节点的熵的减少称为信息增益，处理分支熵的时候，选择使用熵的加权平均值来衡量熵值的高低，计算信息增益是为了看两阶之间如果增益太小的话则不需要分了
在这里插入图片描述

i i i . 多个&连续特征

a)one hot coding(独热编码)

**使用：**如果一个特征有多个可能取值，我们可以将多个取值都变为一种特征，然后取值变为0，1是否

b) 连续特征

**解决：**如果一个特征有连续的取值，类似体重，可以按照信息熵来划分一个界限

2、regression tree（回归树）

i. how to choosing a spilt

a). 根据方差选择回归树

先计算出根节点的方差，然后计算不同特征分类以后的方差，选择方差差值较大的一个作为划分条件

在这里插入图片描述

i i. weaknesses of desicion tree

改变数据集中的一个数据就会对最后的树造成很大的影响，形成一个根据不同条件划分的树

解决：多构建几个树，使用树的合集来共同决策最后的结果，来投票最后的结果

二、决策森林

i. Sampling with replacement（有放回抽样）

**作用：**通过有放回的多次抽样，得到多个和原始训练集大小一样的训练集，与原始的相似但不同的新训练集

i i . Random forest algorithm

a) 袋装决策树

使用 : 使用放回抽样来生成新的dataset，用生成的新的dataset来训练模型，得到新的decision tree，一共重复m次，m 的取值一般为64-228，一般是100往后可能会收益递减。

b) random forest algorithm

与上面的不同： 袋装决策树会因为dataset的小的改变而改变根节点和附近的划分特征，而这里会选择从n个feature中选择 k 个特征，从中选择entropy最大feature来进行划分。

为什么比单一的决策树更加健壮： 因为有放回抽样给了很多个具有微小误差的dataset，训练了不同的决策树，对训练集很多小的变化的求平均

i i i. XGBoost （极端梯度增强）

**作用：**在前面创建随机森林过程中，对于每次当前dataset中训练错误，在下一次有放回的dataset中都有更大的机会从错误的例子中取出看，进行有针对的错误训练，使得更加的高效

使用：

在这里插入图片描述

三、Conclusion

1 . 决策树，集成树，神经网络的优缺点

i . 决策树和集成树的优缺点：

能够很好的处理表格数据（结构化数据），类似于房价问题，将数据都可以做成一个表格的形式，然后我们可以做出分类或者回归预测的任务
不建议在视频，图像，音频和文本等非结构化数据使用，神经网络能很好的处理非结构数据

i i .神经网络的优缺点

决策树的训练时间很快，大型的神经网络的训练时间通常都是很慢
能够很好的和transfer learning协同工作
多个机器学习模型协同工作的系统，多个神经网络一起训练比多个决策树更加容易

关注

47
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
03 decision tree（决策树）

吴恩达的机器学习笔记03
复制链接

扫一扫

专栏目录

叮咚Zz

CSDN认证博客专家 CSDN认证企业博客

码龄5年

52: 原创

2万+: 周排名

1万+: 总排名

5万+: 访问

: 等级

1871: 积分

1010: 粉丝

1330: 获赞

29: 评论

980: 收藏

私信

关注

热门文章

分类专栏

最新评论

Java设计模式
2401_84434086: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【JUC编程】-多线程和CompletableFuture的使用
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
【Java八股面试系列】中间件-Redis
Kwan的解忧杂货铺: 博主的文章总是让人受益匪浅，知识的分享太有价值了，期待你继续灌输智慧！博主的文字清晰明了，让我在这个领域更加有信心，真的谢谢你的辛勤付出。
【LeetCode-337】打家劫舍III(动态规划)
ha_lydms: 作者对于每个话题的深入分析总是让人眼前一亮。我喜欢他们的批判性思维和独立见解。
【LeetCode-494】目标和(回溯&动归)
Kwan的解忧杂货铺: 博主的文章总是如一盏明灯，指引我前进，每一篇博文都是一次心灵的提升，你的分享总是如此珍贵，你的博文总是让我拓展了视野，增长了见识，感谢你一直以来的无私奉献。期待更多知识的分享。非常感激你的专业知识传授。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。