机器学习（5）

最新推荐文章于 2022-10-18 13:09:54 发布

Mr. Morningstar

最新推荐文章于 2022-10-18 13:09:54 发布

阅读量390

点赞数

文章标签：机器学习决策树人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46218732/article/details/125237459

版权

决策树

基本流程

根节点	只有一个，树的开始节点
子节点	根节点和叶子节点中间的节点
叶子节点	树最后的节点，其下再无分支
	每个节点都是一个集合，代表一个划分属性每个分支都相当于一个属性的值分支的过程就是分类叶子节点就是分类结果
流程	决策树分类的过程是一个递归过程 1--7 是判断是否是递归返回的情况 8--16 是分类的具体过程 8 中的a*由划分选择中的方法决定

划分选择

信息增益

信息熵（information entropy）：度量样本集合纯度（purity）

pk是集合D内第k个样本所占比例

信息熵越低，纯度越高

信息增益（information gain）

集合加绝对值表示集合的基数即集合长度

增益越大，属性a分类效果越好

偏好取值数目较多的属性（缺陷：如将编号作为一个属性，分类后一个一组，分类失去作用，不具泛化能力）

增益率（gain ratio）

ID3（迭代二分器）

4.4 为属性a的固有值，a可能取值数目越多，4.4值越大

先选择信息增益高于平均水平的属性，再找增益率最高的属性

基尼系数 gini index

CART决策树

挑选两个随机样本，不一致的概率

基尼系数越小，纯度越高

属性a的基尼系数

剪枝（pruning）处理

剪枝

预剪枝

在划分之前判断将当前节点化成叶节点能否增加泛化能力，若不能则将其化成叶节点

判断分类前后，纯度是否上升，没有上升则不以该属性划分

优点：减少了不必要的分类，节约时间成本

缺点：有欠拟合的风险

后剪枝

训练成一颗树后，自下而上对非叶子节点进行判断，若将其改为叶子节点可以提高泛化能力则改变

判断去掉该节点是否有利于提高泛化能力，提高则去掉

优点：相较预剪枝保留较多分支，欠拟合风险小

缺点：时间花销成本高

连续与缺失值

连续值处理

连续指该属性的值应为连续的量，如密度重量等

采取二分法，取两点的中间点作为分类点，

当前划分属性为连续值，则可以反复将其作为划分属性

离散属性则不行

缺失值处理

让该样本以不同的概率归到不同的类里

多变量决策树

非叶节点不再是一个属性，而是一个类似线性模型的分类器

请各位大佬批评建议指正！！！

参考文献：

周志华. 机器学习

Mr. Morningstar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（5）

机器学习之决策树学习笔记
复制链接

扫一扫

Mr. Morningstar CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

59万+: 周排名

18万+: 总排名

4917: 访问

: 等级

133: 积分

3: 粉丝

3: 获赞

1: 评论

12: 收藏

私信

关注

热门文章

最新评论

Zotero论文格式去除DOI、链接、中英文可识别
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题中提到的去除DOI、链接以及中英文可识别的方法似乎非常实用。我相信这篇博客一定能帮助到很多人。感谢您持续不断地分享有价值的内容。对于下一步的创作建议，我想提出一点小建议。或许您可以考虑进一步探讨如何优化论文格式，以提高读者的阅读体验。例如，您可以分享一些关于如何排版论文以使其更易读、更具吸引力的技巧。这样的主题可能会引起更多读者的兴趣，同时也有助于提升他们的学术写作水平。再次恭喜您的努力和成果，期待您未来更多精彩的创作！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。