周志华机器学习 Day6

最新推荐文章于 2019-04-08 11:10:36 发布

辉哥仔Chilam

最新推荐文章于 2019-04-08 11:10:36 发布

阅读量207

点赞数

分类专栏：机器学习文章标签：周志华机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37160123/article/details/80920206

版权

机器学习专栏收录该内容

31 篇文章 4 订阅

订阅专栏

决策树

决策树是一类常见的机器学习方法，其是基于“树”的结构进行决策的，这恰是人类在面临决策问题时一种很自然的处理机制。

以西瓜好坏的机器学习任务构建决策树如下图。

一般地，一棵决策树包括一个根节点、若干个内部节点和若干个叶结点；叶结点对应于决策结果，其余结点对应于一个属性测试。从根结点到每个叶结点的路径对应了一个判定测试序列。

以下是决策树学习基本算法

显然，决策树是一种递归过程。我们可从中得知，具有三种情形导致递归返回：（1）当前节点包含的样本全属于同一类别，无需划分（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分（3）当前结点包含的样本集合为空，不能划分

划分选择

“信息熵”是度量样本集合纯度（决策树的分支结点所包含的样本尽可能属于同一类别）最常用的一种指标。

假定当前样本集合D中第k类样本所占的比例为pk（k=1,2,3.....|y|），则D的信息熵定义为

并且，Ent（D）的值越小，则D的纯度越高。

假定离散属性a有V个可能的取值，若使用a来对样本集D进行划分，则会产生V个分支结点，其中第v个分支结点包含了D中所有在属性a上取值为a^v的样本，记为D^v。然后算出D^v的信息熵，给分支结点赋予权重，即样本数越多的分支结点的影响越大，于是可计算出用属性a对样本集D进行划分所获得的“信息增益”。

一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。因此，在算法第8行选择属性著名的ID3决策树算法就是以信息增益为准则来选择划分属性的。

增益率

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，C4.5决策树算法使用了“增益率”来选择最优划分属性。增益率定义为

其中

称为属性a的“固有值”；属性a的可能取值数目越多（即V越大），则IV（a）的值通常也越大。

需要注意的是，增益率准则对可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

辉哥仔Chilam

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
周志华机器学习 Day6

决策树决策树是一类常见的机器学习方法，其是基于“树”的结构进行决策的，这恰是人类在面临决策问题时一种很自然的处理机制。以西瓜好坏的机器学习任务构建决策树如下图。一般地，一棵决策树包括一个根节点、若干个内部节点和若干个叶结点；叶结点对应于决策结果，其余结点对应于一个属性测试。从根结点到每个叶结点的路径对应了一个判定测试序列。以下是决策树学习基本算法显然，决策树是一种递归过程。我们可从中得知，具有三种...
复制链接

扫一扫

专栏目录

辉哥仔Chilam CSDN认证博客专家 CSDN认证企业博客

码龄8年

93: 原创

7万+: 周排名

186万+: 总排名

4万+: 访问

: 等级

944: 积分

54: 粉丝

17: 获赞

4: 评论

81: 收藏

私信

关注

热门文章

分类专栏

编程技巧 1篇
ARM 1篇
Docker学习 5篇
C
机器学习 31篇
LeetCode 4篇
Linux 8篇
C++ 7篇
MySQL数据库 3篇
C++设计模式 9篇
OpenWRT 1篇
网络编程 15篇
C++关键字 4篇
boost库学习 3篇
std库学习 2篇
QT

最新评论

Linux--自有服务
XuBen97: 黑马毕业的？
周志华机器学习 Day2
七百攻的卉卉酱: 好的，我找到这本书了，看你按照day来写的笔记还以为有相应视频啥的呢，谢谢呦
周志华机器学习 Day2
辉哥仔Chilam 回复七百攻的卉卉酱: 这是一本书来的，就是一些机器学习入门的知识点，视频的话可以网上找找，都挺多的。
周志华机器学习 Day2
七百攻的卉卉酱: 请问学的哪个课程呀视频课吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。