统计学习方法学习记录3

Moriim

已于 2024-09-03 16:27:37 修改

阅读量175

点赞数 2

文章标签：学习方法学习

于 2024-09-03 00:05:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77666509/article/details/141832786

版权

第五章决策树

决策树是一种基本的分类与回归方法。

决策树模型与学习

定义：分类决策模型是一种描述对实例及逆行分裂的树形结构，由结点，有向边组成。

两种结点：内部结点和叶结点。内部结点表示一种特征或属性，叶结点表示一个类。

if-then规则：决策树可以看成一个if-then规则集合（条件if- else）

条件概率分布：

当成if else ，纵向是概率。a1是第一特征选择，分类完，左子树再用a2作为特征选择进行分类；右子树用a3作为特征选择。

特征选择：在于选取对训练数据具有分类能力的特征。通常选择准则为信息增益与信息增益比。

信息增益：与表示随机变量不确定性地度量——熵有关系。（熵表示一个物质的混乱程度，熵越大，混乱程度越大）

用熵间接表示训练数据经过特征选择后，熵的变化量来表示。选取熵前后变化量最大来表示该特征选择具有很好的分类效果。

条件熵：表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵。（Y在X条件确定下的混乱程度）

信息增益：得知特征X的信息后，使得类Y的信息不确定性减少的程度。（前后变化量）

$g(D,A)=H(D)-H(D|A)$

熵与条件熵之差称为互信息，决策树学习中的信息增益等价于训练数据集中类和特征的互信息。

信息增益大，具有强大的分类能力。

信息增益比：

$g_{R}(D,A)=\frac{g(D,A)}{H(D)}$

$H(D)$ 为不加占比的（再理解）

决策树的生成

ID3算法：核心为在决策树各个结点上应用信息增益准则选择特征。

1.从根结点开始，对结点计算所有可能的特征的信息增益，进行比较，选择信息增益最大的特征作为结点的特征，由该特征不同取值分类，建立子结点。

2.再对子结点递归调用1，构建决策树。（左子结点不属于同一类则以该结点为新的根结点，计算剩下特征的信息增益，再次选择信息增益最大作为特征；右结点属于同一类，则结束）

3.知道所有特征信息增益均很小或没有特征可以选择位置，最后得到一个决策树。

ID3算法只有树的生成，所以生成的树特别容易产生过拟合。

C4.5算法：与ID3算法相近，但以信息增益比准则选择特征。

决策树的剪枝：决策树生成算法递归地产生决策树，特别容易出现过拟合。也要考虑决策树的复杂度，对已生成的决策树进行简化。

在决策树学习中将已生成的树进行简化的过程称为剪枝。

剪枝算法是利用损失函数在经过剪枝之后的大小。剪枝之后损失函数变小，则剪枝成功。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法学习记录3

（左子结点不属于同一类则以该结点为新的根结点，计算剩下特征的信息增益，再次选择信息增益最大作为特征；右结点属于同一类，则结束）1.从根结点开始，对结点计算所有可能的特征的信息增益，进行比较，选择信息增益最大的特征作为结点的特征，由该特征不同取值分类，建立子结点。条件熵：表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵。熵与条件熵之差称为互信息，决策树学习中的信息增益等价于训练数据集中类和特征的互信息。信息增益：得知特征X的信息后，使得类Y的信息不确定性减少的程度。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。