[西瓜书/机器学习] Ch4 决策树学习笔记(1)

最新推荐文章于 2023-12-05 17:14:34 发布

Zero_Void_

最新推荐文章于 2023-12-05 17:14:34 发布

阅读量116

点赞数

分类专栏：笔记机器学习(周志华) 文章标签：数据挖掘决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zero_Void_/article/details/111554202

版权

本文介绍了决策树学习的基础流程，包括信息增益、增益率和基尼指数三种划分准则。通过这些准则，决策树构建过程旨在提高节点的纯度。文章以ID3、C4.5和CART算法为例，探讨了不同划分方法对决策树性能的影响，并指出尽管划分准则不同，但对泛化性能影响有限，剪枝方法对决策树泛化能力有显著影响。

摘要由CSDN通过智能技术生成

[西瓜书/机器学习] Ch4 决策树学习笔记(1)

本文首发于ZeroVoid网站, 欢迎前来玩耍.

系列还未完成, 还在努力学习中. 喜欢的话欢迎分享

决策树(decision tree/判定树)是一种常见的机器学习方法.
其中最著名的代表算法便是J. Ross Quinlan(罗斯昆兰, 1943- )提出的ID3, C4.5算法和CART(分类与回归决策树)算法.

下文简单介绍决策树算法的基础流程以及划分准则.
之后也会对剪枝, 连续值处理, 缺失值处理以及多变量决策树进行学习介绍.
最后结合代码对数据集进行处理, 提高自己对知识的理解, 掌握和使用能力.

基础流程

一般, 一颗决策树包含一个根结点, 若干个内部结点和若干个叶结点.

叶结点对应决策结果, 其他每个结点则对应一个属性测试
每个结点包含的样本集合根据属性测试的结果被划分到子结点中
根结点包含样本全集
从根结点刀每个叶结点的路径对应一个判定测试序列

决策树的目的就是为了产生一棵泛化能力强的决策树. 其基本算法流程遵循分而治之(divide-and-conquer)思想, 伪代码如下:
在这里插入图片描述

决策树的基本算法思路是递归的, 基本过程处理三种返回情况:

当前结点包含的样本全部属于同一类别
当前属性集为空, 或所有样本在所有属性上取值相同
当前结点包含的样本集合为空

划分选择

根据上述的算法流程, 可以发现如何划分对于决策树的泛化性能来说十分重要, 因为我们希望结点的"纯度"(purity)越高.

下面就简单介绍三种常见的划分指标:

信息增益 information entropy
增益率 gain ratio
基尼指数 gini index

信息增益

信息熵(information entropy)是度量样本集合纯度最常用的一种指标.信息熵定义: 样本集合 $D$ 中第 $k$ 类样本所占比例为 $p_K(k=1,2,\dots,|\mathcal{Y}|)$ , 则 $D$ 的信息熵为

$\sum_{k=1}^{|\mathcal{Y}|}p_k log_2 p_k$

Ent(D) 越小, D纯度越高. 规定 $p = 0$ 时Ent = 0.

假设离散属性 $a$ 有

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。