机器学习（2）

最新推荐文章于 2024-09-14 19:18:15 发布

渝欢意

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量468

点赞数 13

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80841566/article/details/140541612

版权

4.1 决策树基本流程

4.1.1.决策树模型

决策树基于“树”结构进行决策

）每个“内部结点”对应于某个属性上的“测试”
）每个分支对应于该测试的一种可能结果（即该属性的某个取值）
）每个“叶结点”对应一个“预测结果”

学习过程：通过对训练样本的分析来确定“划分属性”（即內部结点所对应的属性）
预测过程：将测试示例从根结点开始，沿着划分属性所构成的“判定测试序列”下行，直到叶结点
决策树模型如图1所示

图1 西瓜问题的一颗决策树

基本流程

）策略：分而治之
）自根至叶的递归过程
）在每个中间结点寻找一个“划分”属性

图2 决策树学习基本算法

三种停止条件

）当前结点包含的样本全属于同一类别，无需划分
）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分（样本集合中谁多就当成是谁）
）当前结点包含的样本集合为空，不能划分（父结点的样本集合中谁多就当成是谁）

4.2 划分选择

4.2.1.信息增益划分

信息熵：度量样本集合“纯度”最常用的一种指标假定当前样本集合D中第k类样本所占的比例为 $p_{k}$ ,则D的信息熵定义为

$Ent(D)=-\sum_{k-1}^{|y|}p_{k}log_{2}p_{k}$

计算信息熵是约定，若p=0，则 $plog_{2}p=0$
Ent(D)的值越小，则D的纯度越高,Ent(D)的最小值为0，最大值为 $log_{2}|y|$
信息增益直接以信息熵为基础，计算当前划分对信息熵所造成的变化
依下图，可计算出用属性a对样本集D进行划分所获得的“信息增益”

对各个属性进行计算，得到其信息增益，选取信息增益最大的属性作为划分属性
一般而言，信息增益越大，意味着使用属性a来划分所获得的“纯度提升”越大，可用信息增益来进行决策树的划分属性选择

4.2.2.增益率

信息增益：对可取值数目较多的属性有所偏好，有明显弱点，如考虑将“编号”作为一个属性
增益率公式如下

其中

属性a的可能取值数目越多（即V越大），IV(a)的值通常就越大
增益率准则对可取值数目较少的属性有所偏好，所有C4.5算法未直接选择增益率最大的候选划分属性，而是使用启发式：先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的

4.2.3 基尼指数（CART算法中使用）

数据集D的纯度可用基尼值来度量，如下

公式中反映了从D中随机抽取两个样例，其类别标记不一致的概率，Gini(D)越小，数据集D的纯度越高
属性a的基尼指数公式如下

$Gini-index(D,a)=\sum_{v=1}^{V}|D^{v}|/|D|Gini(D^{v})$

在候选属性集合中，选取那个使划分后基尼指数最小的属性作为最优划分属性

4.3 剪枝处理

4.3.1.划分选择 VS 剪枝

划分选择的各种准则虽然对决策树的尺寸有较大影响，但在泛化性能的影响很有限，剪枝方法和程度对决策树泛化性能的影响更为显著
剪枝是决策树对付过拟合的主要手段
当单使用一个决策树的时候一定要使用剪枝，决策树剪枝的基本策略有两种，分别为“预剪枝”和“后剪枝”，剪枝过程中需评估剪枝前后决策树的优劣（第2章）

）预剪枝：提前终止某些分支的生长
）后剪枝：生成一棵完全树，再“回头”剪枝

剪枝目的：未来尽可能正确分类训练样本，有可能造成分支过多，导致过拟合，可通过主动去掉一些分支来降低过拟合的风险

4.4 连续与缺失值

4.4.1.缺失值

现实应用中，常会遇到属性值“缺失”现象，若仅使用无缺失的样例 —> 对数据的极大浪费
使用带缺失值的样例，需解决一下问题

）如何进行划分属性选择？
）给定划分属性，若样本在该属性上的值缺失，如何进行划分？

问题解决基本思路：样本赋权，权重划分

关注

13
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

渝欢意 CSDN认证博客专家 CSDN认证企业博客

码龄1年

19: 原创

138万+: 周排名

7万+: 总排名

9530: 访问

: 等级

368: 积分

164: 粉丝

180: 获赞

7: 评论

140: 收藏

私信

关注

热门文章

最新评论

数据结构——树（1）
CSDN-Ada助手: 恭喜用户发布了关于数据结构中树的第一篇博客！坚持写作是一个很好的习惯，也让更多的人受益于您的知识分享。希望您在接下来的创作中能够深入探讨树的相关知识，比如树的遍历、平衡树等内容，这将会为读者提供更全面的学习体验。期待您更多精彩的文章，加油！
数据结构——串、KMP算法、数组和广义表习题整理
CSDN-Ada助手: 恭喜作者发布了新的一篇博客，内容涵盖了数据结构中的串、KMP算法、数组和广义表习题整理，内容十分丰富。希望作者能够继续保持创作的热情，不断分享知识和经验。下一步建议可以考虑深入探讨某一个具体的数据结构或算法，以便更好地帮助读者理解和掌握相关知识。期待作者更多精彩的作品，加油！
数据结构——知识点复习（2）
CSDN-Ada助手: 恭喜您写了第11篇博客！标题为“数据结构——知识点复习（2）”的这篇文章内容很有深度，对数据结构知识点的复习能够帮助读者更好地理解和掌握。希望您能继续保持创作的热情和努力，坚持分享有价值的知识给大家。下一步建议可以考虑添加一些实例或案例分析，更生动地展示数据结构知识的应用和重要性，让读者更容易理解和记忆。期待您更多的精彩内容！
数据结构——知识点复习（1）
CSDN-Ada助手: 恭喜你写了第10篇博客，标题为“数据结构——知识点复习（1）”！持续创作不易，你的努力和热情让读者受益匪浅。接下来，可以考虑在知识点复习的基础上，结合实际案例或者常见问题进行深入解析，这样可以更好地帮助读者理解和应用数据结构知识。期待你更多精彩的创作，加油！
C++课程学习（1）
CSDN-Ada助手: 恭喜您写了第5篇博客！C++课程学习是一个非常有用的话题，希望您能够继续坚持写作，分享更多学习心得和经验。下一步建议可以考虑深入探讨一些C++中的高级概念，或者结合实际项目经验进行分享，这样可以让读者更加深入地了解C++编程的技巧和应用。期待您的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。