Machine Learning－－决策树（一）

最新推荐文章于 2023-08-23 09:47:17 发布

vvyuervv

最新推荐文章于 2023-08-23 09:47:17 发布

阅读量470

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vvyuervv/article/details/61924359

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

决策树（decision tree）：是机器学习常见的算法之一。是基于树形结构进行决策的。

讲决策树就要提到“信息熵”、“信息增益”、“增益率”和“基尼指数”的概念。

我们先来介绍一下这几个概念：（讲解针对离散型数据，连续型暂时不讲）

信息熵（information entropy）：是度量样本集合纯度的一种指标。本文使用Ent表示。

　　

其中，D表示样本集合（比如现有100个苹果的数据，D就表示这100个苹果），y表示标签可选择的个数（比如判断苹果的好坏，有“好”和“坏”两种结果，所以y＝2），Pk表示第k类样本所占的比例（例如好苹果有80个，则p1=0.8，p2=0.2）。通过上式可以计算出信息熵的值。

信息熵的值越小，说明集合D的纯度越高，即属于同一类别的苹果就越多。当全部属于同一类别时，信息熵的值为0.

信息增益（information gain）：

　　　　

a表示样本众多属性中的一个（比如苹果的颜色，产地，体型等都是属性），v表示a这个属性可以取值的个数（比如，苹果体型这个属性可以去大、中、小三个值，v＝3），Dv表示属性a取值为v的时候的样本空间（比如，全部体型大的苹果，或者全部体型小的苹果），D让然表示全部的样本空间（所有的苹果）。通过上式可以计算出信息增益。

信息增益的值越大，则意味着用属性a来划分，所获得的“纯度提升”越大。换句话说，就是把好坏苹果分的越清楚。

计算出所有的属性所对应的信息增益值，选择最大的那个属性，按该属性将苹果进行划分，判断苹果是好还是坏。之后再对划分后的子集合在利用相同的方法选择属性进行划分（已使用过的属性将不再使用），知道划分后的苹果属于同一类别（都是好的，或者都是坏的）。著名的ID3算法就是以信息增益为准则来选择划分属性的。

信息增益对可取值数目较多的属性有所偏好，当一个属性的可取值很多时，他的信息增益也就回变的很大。（不妨私下试一试）

假如某个属性是标号，那么有多少个样本，该属性就有多少个取值，该属性的信息增益肯定是最大的，但是我们在划分的时候是不会按样本编号来划分的。所以我们要消除这样属性给我们带来的错误。这就有了增益率。

增益率（gain ratio）：

　　

IV（a）称属性a的“固有值”，当属性a可取的值的个数越多时，IV（a）的值越大。增益率＝信息增益／固有值。

因为，增益率对取值较少的的属性有所偏好。所以在选区划分属性的时候并不是单纯的选择增益了最高的那个，而是在信息增益高于平均水平的属性中，选择增益率最高的那个。

著名的C4.5算法就是以增益率为准则来选择划分属性的。

基尼指数：

数据集D的纯度可以用基尼值来度量。基尼值（Gini）反应了从数据集D中随机抽取两个样本，其类别标签不一样的概率。基尼值越小，数据集D的纯度越高。

所以，我们会选择基尼指数最小的那个属性进行划分。

CART决策树（classification and regression tree）就是使用基尼指数来选取划分属性的。

参考书籍是南京大学周志华老师的《机器学习》

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning－－决策树（一）

决策树（decision tree）：是机器学习常见的算法之一。是基于树形结构进行决策的。讲决策树就要提到“信息熵”、“信息增益”、“增益率”和“基尼指数”的概念。我们先来介绍一下这几个概念：（讲解针对离散型数据，连续型暂时不讲）信息熵（information entropy）：是度量样本集合纯度的一种指标。本文使用Ent表示。　　其中，D表示样本集合（比如现有100个苹果的数
复制链接

扫一扫

专栏目录

博客等级

码龄12年

33
原创

34
点赞

122
收藏

33
粉丝

关注

私信

热门文章

分类专栏

leetcode 1篇
深度学习 10篇
机器学习 7篇
Python 8篇
C/C++
杂乱 7篇
MATLAB 2篇

最新评论

darknet安装
一条咸鱼摆摆: 请问我用“make”的时候显示不是内部或外部命令，也不是可运行的程序或批处理文件。是什么原因
python 存储bmp格式图片
帅气的阿飞: 0，1图像肯定都是黑的，只有0，255的图像才能看出黑白的
darknet安装
_$Dndelion: 请问您弄好了吗，那个makefile文件怎么弄呀，求教谢谢
darknet安装
_$Dndelion: 如何将opencv和GPU修改成1啊我打开makefile文件发现没有这个选项，可能是我不会弄，求大神讲解，急用！！！
交叉熵代价函数求梯度的推导
Black_And_Black: 反正约掉了，不过我在想他过程中那个h(x) 里的x是不是就是指代z呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。