西瓜书第4章决策树 4.1-4.2

最新推荐文章于 2022-07-22 00:30:41 发布

淮海路小佩琦

最新推荐文章于 2022-07-22 00:30:41 发布

阅读量242

点赞数 1

分类专栏：机器学习文章标签：决策树机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45903351/article/details/124995899

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

决策树

概念

分类树为例

逻辑： 从根节点出发，对样例的每一个属性进行判断，根据判断结果，将样例分配到其子节点中，此时，每个节点又对应着该属性的一个取值，如此递归的对样例进行判断和分配，直至将样例分配到叶子结点中，其基本流程遵循简单且直观的分而治之的策略。

算法模型：
在这里插入图片描述

算法原理： 构造根节点，将所有训练数据集都放到根节点，选择一个最优特征，将训练数据集分割成子集，使得训练集在当前按条件下有最好的分类。如果这些子集已经可能很好的分类，那么构建叶节点，如果还不能很好的分类，继续对其分割，构造相应的结点，如此递归进行，直至所有训练数据集被基本正确分类，或者没有合适的特征为止。所以决策树学习算法通常是递归的选择特征对数据集进行分割，以达到最好的分类结果。

本质： 实际上是一个树形数据结构，是一个 if - then 的规则集合，根节点到叶子结点的每一条路径构建成一条规则,用规则进行分类。

性质：

完备性：每个样例都有一条规则路径所覆盖
互斥性：每个样例只有一条规则路径所覆盖

构建决策树规则路径的依据是条件概率，这一条件概率分布定义在特征空间的一个划分上，决策树的路径就是一个划分单元，决策树分类时将该节点的样例强行分配到条件概率大的一个类别中。

决策树学习

本质： 是从训练数据集中归纳出一组分类规则，这种决策规则有可能没有，也可能是多个，这时候需要选择一个决策树规则，与数据集矛盾较小的同时又需要很好的泛化效果。

经过基本的学习，决策树可能对训练集有了很好的分类能力，但是对未知数据不一定同样有很好的分类效果，所以，为了避免过拟合现象，还需要对生成的树进行剪枝，将树变得更简单，以实现更好的泛化能力。

特征选择

目的： 选择具有分类能力的特征，如果利用一个特征进行分类与随机分类没有区别，则这个特征就不具备分类能力。

准则： 信息增益与信息增益比（也叫信息增益率）。

信息熵： 熵常用在信息论和概率统计中，是一种表示随机变量不确定性的度量。

设 D 为一个取有限个值的离散随机变量，其概率分布为：P( D = x_k ) = p_k, k=1,2,3,···,|y| 则随机变量 D 的信息熵为
在这里插入图片描述

从上式能看出熵与 D 的取值无关，只依赖于 D 的分布。其中 Ent(D) 的最小值为 0 ，最大值为 log2|y|。

信息条件熵：
对于随机变量（ X , Y ），其联合概率分布为
在这里插入图片描述

条件熵 H( X | Y ) 就表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。定义在条件 X 下 Y 的条件概率分布的熵对 X 的数学期望。
在这里插入图片描述

信息增益就表示在得知特征 X 的条件下类别 Y 的不确定性程度。

信息增益：
熵 Ent(D) 与条件熵 H( X | Y ) 之差称为互信息，决策树学习中信息增益就等价于训练数据集中类与特征的互信息，假定离散属性 a 有 V 个可能的取值{a^1,a2,···,a^V}，若使用 a 来对样本集 D 进行划分，则会产生 V 个分支结点，其中第 v 个分支结点包含了 D 中所有在属性 a 上取值为 a^v 的样本，记为 D^v 。此时算出其信息熵，再赋予权重 | D^v |/| D |那么对于训练数据集 D 和特征 a ，信息增益可以表示为
在这里插入图片描述

公式中的后半部分就是条件熵 H( X | Y ) 。

信息增益算法模型：
在这里插入图片描述

信息增益的特征选择方法： 对训练集计算其每个特征的信息增益并比较大小，选择信息增益最大的特征。

信息增益比：
以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，为了矫正这个问题，可以使用信息增益比。
在这里插入图片描述

其中：
在这里插入图片描述

信息增益比本质： 在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

不过和信息增益类似的加入信息增益比之后也有一个缺点，信息增益比会偏向于选择取值较少的特征，所以出现一种表示样本纯度的方法即基尼系数。

基尼系数:
基尼系数的表示为
在这里插入图片描述

对于二分类问题，基尼系数为
在这里插入图片描述

对于给定一个样本集合D，其基尼系数为
在这里插入图片描述

同样，条件熵也可以定义为
在这里插入图片描述

基尼系数本质： Gini(D) 反应了从数据集 D 中随机抽取两个样本，其类别标记不一致的概率，因此， Gini(D) 越小，数据集的纯度越高。

淮海路小佩琦

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。