《西瓜书》阅读笔记——第四章

最新推荐文章于 2024-08-07 15:29:44 发布

Shannon_Lau

最新推荐文章于 2024-08-07 15:29:44 发布

阅读量230

点赞数

分类专栏：吃瓜笔记文章标签：机器学习决策树算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Morphine_/article/details/125437593

版权

吃瓜笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

《第四章》决策树

1. 基本流程

决策树(decision tree)：从给定训练数据集学得一个模型用以对新示例进行分类。

决策树模型是基于树模型进行决策的，与人类在面临决策时的机制相似。

请添加图片描述

决策过程的最终结论对应了我们希望的判定结果：“是不是好瓜”

决策过程中提出的判定问题都是对某个属性的测试：“色泽=？”

每个测试结果要么导出最终结论，要么到处进一步的判定问题，且考虑范围实在上次决策结果的限定范围之内，如：在“色泽=青绿”之后再判断“根蒂=？”，则仅考虑青绿瓜的根蒂。

一般来说，对于一颗决策树，只包含一个根节点、若干内部节点、若干叶子节点。

叶子结点对应于决策结果，内部结点对应于一种属性的测试。
每个结点包含的样本集合根据属性测试的结果被划分到子结点中。
根结点包含样本全集。
从根节点到每个叶子节点的路径对应一个测试序列。
决策树的目的：产生一棵泛化能力强，即处理未见示例能力强的决策树。

请添加图片描述

三种递归终止条件：

当前结点包含的样本全部属于同一类。
当前属性集为空，或所有样本在所有属性上取值相同。
当前结点包含的样本集合为空。

2.划分选择

最重要的是如何选择最优划分属性。一般来说，随着划分过程不断进行，决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”（purity）越来越高。

2.1 信息增益——ID3

假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2,...,|y|)$

信息熵(information entropy)： $Ent(D)=-\displaystyle \sum_{k=1}^{|y|}p_klog_2p_k$

$E n t (D)$ 的值越小，则 $D$ 越纯。

信息增益(information gain)： $Gain(D,a)=Ent(D)-\displaystyle \sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$ 其中 $\frac{|D^v|}{D}$ 是分支结点的权重。

2.2增益率——C4.5

增益率(gain radio)： $Gain\_radio(D,a)=\frac{Gain(D,a)}{IV(a)}$

$IV(a)=-\displaystyle \sum_{v=1}^V\frac{|D^v|}{|D|}log_2\frac{|D^v|}{D}$

其中 $a$ 称为属性的“固有值”(intrinsic value)

2.3 基尼指数——CART

基尼值(Gini index)： $Gini(D)=\displaystyle\sum_{k=1}^{|y|}\sum_{k\prime\not=k}p_kp_{k\prime}=1-\displaystyle\sum_{k=1}^{|y|}p_k^2$
基尼指数 $Gini\_index(D,a)=\displaystyle\sum_{v=1}^V\frac{|D^v|}{D}Gini(D^v)$

在划分选择的时候，选择划分后基尼指数最小的属性作为最优划分属性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。