机器学习之决策树（未完成）

最新推荐文章于 2024-07-24 22:14:11 发布

n00bk1ng

最新推荐文章于 2024-07-24 22:14:11 发布

阅读量173

点赞数

分类专栏：电磁文章标签：机器学习决策树 python

本文链接：https://blog.csdn.net/qq_45760866/article/details/120978418

版权

电磁专栏收录该内容

7 篇文章 0 订阅

订阅专栏

决策树

例题为选西瓜问题，情景如下：我们要对"这是好瓜吗?“这样的问题
进行决策时，通常会进行一系列的判断或"子决策"我们先看"它是什么颜
色?”，如果是"青绿色"，则我们再看"它的根蒂是什么形态?"，如果是"蜷
缩"，我们再判断"它敲起来是什么声音?"，最后?我们得出最终决策:这是个
好瓜.这个决策过程如图所示.
在这里插入图片描述

决策树基本流程：

分析

	根据流程可以看出，实际上是一个递归过程，在多次的决策中确定自己的节点。那么会有三种导致递归返回的结果：①当前节点所包含的所有样品属于同一类别，无需划分。②当前属性集为空，或者所有样品在属性上均相同，无法划分。③当前节点的样本集合为空，无法划分。
	此时，关键问题在上图2第八行，即是需要解决的，如何最优划分属性，最终结果我们希望决策树的分支节点包含的样本尽可能属于同一类别，即纯度越来越高

信息熵

	"信息熵" 是度量样本集合纯度最常用的一种指标，假定当前样本集合D中第k类样本所占的比例为Pk (k = 1, 2,. . . , IYI) ，则D的信息熵定义为
	![在这里插入图片描述](https://img-blog.csdnimg.cn/b1f3992d52cc4f87985b1d748a17c798.png)

Ent(D)的值越小，则D的纯度最高。
于是假定离散属性a中有V个可能的取值，若使用a对样本进行划分，则会有V个分支节点，其中第V个分支节点包含了D中所有在属性a上取值为av的样本，给分支节点赋予权重|Dv|/|D|，即样本数越多的分支节点的影响越大，此时计算出用属性a对样本集D进行划分所获得的“信息增益”
在这里插入图片描述

增益率

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种

偏好可能带来的不利影响，著名的 C4.5 决策树算法 [Quinlan 1993J 不直接使
用信息增益，而是使用"增益率" (gain ratio) 来选择最优划分属性.采用与相同的符号表示，增益率定义为

在这里插入图片描述

基尼指数

CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index) 来选
择划分属性.采用与式(4.1) 相同的符号，数据集的纯度可用基尼值来度量:
在这里插入图片描述
直观来说， Gini(D) 反映了从数据集中随机抽取两个样本，其类别标记
不一致的概率.因此， Gini(D) 越小，则数据集的纯度越高.
采用与式(4.2) 相同的符号表示，属性的基尼指数定义为
于是，我们在候选属性集合中，选择那个使得划分后基尼指数最小的属
性作为最优划分属性，即a= argmin GiniJndex(D α).

n00bk1ng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树（未完成）

决策树例题为选西瓜问题，情景如下：我们要对"这是好瓜吗?“这样的问题进行决策时，通常会进行一系列的判断或"子决策"我们先看"它是什么颜色?”，如果是"青绿色"，则我们再看"它的根蒂是什么形态?"，如果是"蜷缩"，我们再判断"它敲起来是什么声音?"，最后?我们得出最终决策:这是个好瓜.这个决策过程如图所示.决策树基本流程：分析根据流程可以看出，实际上是一个递归过程，在多次的决策中确定自己的节点。那么会有三种导致递归返回的结果：①当前节点所包含的所有样品属于同一类别，无需划分。②当前属性集
复制链接

扫一扫