机器学习——决策树

中北编程底线

于 2021-04-27 22:21:05 发布

阅读量112

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53174708/article/details/115919127

版权

决策树的基本知识（上期的东西有的不细，这次补充一下）

说明：这篇博客是看周志华老师的《机器学习》（西瓜书）的笔记总结，仅供学习交流，不做商业用途。
借鉴未名湖畔的落叶
 借鉴致敬大神
 借鉴maershii
决策树，顾名思义，是通过一个个的判断来形成一个类似于树状的结构，如图：

好了，现在你已经对决策树有了基本的概念，然后我们接着介绍：

熵：一种事务的不确定性。
信息：用来消除不确定的事物。功能有三：调整概率，排除干扰，确定情况。

怎么理解这两个东西呢：这就要用买西瓜（因为西瓜书，所以买西瓜）的例子了，你怎么知道你要买的西瓜是不是熟的呢？这个不确定性就是熵。然后你可能会用瓜的特征来判断，比如：纹理，根蒂，触感，色泽。这些特征就是信息，帮助你判断西瓜是否熟了，是不是理解了信息的作用？

噪音：不能消除某人对某件事情不确定的事务。
数据=信息+噪音

社会上的数据千千万，对你有用的叫信息，无用的是噪音。决策树就是要尽量实现对信息的处理和减弱噪音对数据分析的影响。

熵如何度量：公式：

在这里插入图片描述
例如：你有多枚硬币，你抛n枚，则结果为2^n种，这时熵课量化为n，所以若一种事情的概率是10种，那么熵量化为log2(10)。

简单的了解了熵的量化后，我们开始给出公式：信息熵：

在这里插入图片描述
“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk（k=1，2，……，y）。

注：信息熵的值越小，D的纯度越高。

主要的决策树算法有：ID3，C4.5，C5.0，CART，CHAID，SLIQ,SPRINT。因为笔者学习进度限制，这篇博客不会讲全，以后的博客会更新。哈哈

信息增益（决策树ID3训练算法）

信息增益的计算过程是一个递归的过程，口述反而容易让读者迷糊，请看链接的视频，随博主走一遍，你恍然大悟。看这，致敬大神

增益率（决策树C4.5训练算法）：
因为信息增益会对可取值数目较多的属性有所偏好。
所以引入增益率，但是会对可取值数目少的属性有所偏好，C4.5算法流程与ID3相类似，只不过将信息增益改为信息增益比。

在这里插入图片描述
视频讲解，找大神

基尼指数：

在这里插入图片描述

继续看大神生动的讲解，但是视频有错，应该是基尼指数越小，纯度越高，注意理解

剪枝处理：为了防止在训练集上表现的很好，但是在验证集上表现得未必很好，因此要进行剪枝处理。为了提升精度，用剪枝处理判断是否需要继续细分下去。

中北编程底线

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习——决策树

决策树的基本知识说明：这篇博客是看周志华老师的《机器学习》（西瓜书）的笔记总结，仅供学习交流，不做商业用途。借鉴未名湖畔的落叶借鉴致敬大神借鉴maershii决策树，顾名思义，是通过一个个的判断来形成一个类似于树状的结构，如图：好了，现在你已经对决策树有了基本的概念，然后我们接着介绍：熵：一种事务的不确定性。信息：用来消除不确定的事物。功能有三：调整概率，排除干扰，确定情况。怎么理解这两个东西呢：这就要用买西瓜（因为西瓜书，所以买西瓜）的例子了，你怎么知道你要买的西瓜是不是熟的
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。