统计学习方法——决策树

最新推荐文章于 2023-11-05 17:31:16 发布

AndrewZhou924

最新推荐文章于 2023-11-05 17:31:16 发布

阅读量550

点赞数 5

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Torres_10/article/details/89060614

版权

本文介绍了决策树学习的基本步骤，包括特征选择、生成和修剪。决策树通过信息增益或信息增益比来选择特征，以构建分类规则。ID3算法易过拟合，C4.5使用信息增益比改善这一问题，而CART则引入了基尼系数和二叉树结构。剪枝过程通过损失函数最小化来提高泛化能力，以防止过拟合。

摘要由CSDN通过智能技术生成

Decision Tree

决策树学习的三个步骤：特征选择、决策树的生成、决策树的修剪

决策树的结点：内部结点表示一个特征或属性，叶节点表示一个分类

决策树的路径或其对应的if then 规则集合满足性质：互斥且完备

决策树学习本质上是从训练数据集中归纳出一组分类规则

与训练集不相矛盾的决策树可能有很多，我们需要的是一个与训练数据矛盾较小且分化能力较强的决策树

关于剪枝：我们需要对已生成的树自下而上进行剪枝，将树变得简单，从而使其具有更好地泛化能力

具体地，就是去掉过于细分的叶结点，使其退回到父节点甚至更高的结点

决策树的生成只考虑局部最优，而决策树的剪枝则考虑全局最优

特征选择的准则：信息增益或信息增益比

信息增益 (information gain)
- 信息论中，熵(entropy)是表示随机变量不确定性的度量
  - 熵越大，随机变量的不确定性就越大
- 信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度
- g(D,A) = H(D) - H(D|A) 【特征A对训练集D的信息增益】
  - H(D) 和 H(D|A) 是经验熵
信息增益比
- 以信息增益划分训练集的特征，存在偏向于选择取值较多的特征的问题
- 信息增益比，把特征的取值数量纳入考虑范围

最低0.47元/天解锁文章

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法——决策树

Decision Tree决策树学习的三个步骤：特征选择、决策树的生成、决策树的修剪决策树的结点：内部结点表示一个特征或属性，叶节点表示一个分类决策树的路径或其对应的if then 规则集合满足性质：互斥且完备决策树学习本质上是从训练数据集中归纳出一组分类规则与训练集不相矛盾的决策树可能有很多，我们需要的是一个与训练数据矛盾较小且分化能力较强的决策树关于剪枝：我们需要对已生成的树自下...
复制链接

扫一扫

专栏目录

AndrewZhou924 CSDN认证博客专家 CSDN认证企业博客

码龄7年

47: 原创

13万+: 周排名

155万+: 总排名

25万+: 访问

: 等级

2258: 积分

67: 粉丝

318: 获赞

33: 评论

874: 收藏

私信

关注

分类专栏

Python基础 18篇
算法 2篇
AI论坛 1篇
机器学习 13篇
杂谈 8篇
Web 1篇
数据库 2篇
邮箱开发 3篇
学习笔记 4篇
C/C++ 3篇
正则表达式 2篇
深度学习 6篇
git 1篇
成长路上 4篇
Java 1篇
CS231n 7篇
个人总结

最新评论

CMake是什么？有什么用？
#15: 讲得太清晰啦！
CMake是什么？有什么用？
李舜生扶我起来: 意思就是源文件按照cmake工具的规范给出cmakelist文件, cmake工具就可以通过这个文件给你生成cmakefile文件, 这个文件的作用就是让你直接用cmake工具里面的make命令,直接编译好源文件工程? 是这个意思不?
程序员所说的「轮子」是什么东西？
有故事的狗: 所以造轮子是封装api吗
CMake是什么？有什么用？
DashingPig: 十分感谢。觉得makefile和cmake有关系，但不知道是啥关系，看了这个之后，清晰多了
CMake是什么？有什么用？
尼晓健: 我也重新看了下，感觉认识更深刻了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。