决策树（Decision Tree）

最新推荐文章于 2023-01-01 16:48:01 发布

PhD的自我修养

最新推荐文章于 2023-01-01 16:48:01 发布

阅读量797

点赞数

分类专栏：统计学习文章标签：决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenconggan0499/article/details/121077520

版权

决策树

决策树是一种基本的分类、回归方法，呈树形结构。决策树定义如下：

定义（决策树）： 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。

决策树学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型，预测时，对新的数据，利用决策树模型进行分类。决策树的学习包括三个步骤：特征选择，决策树的生成和决策树的修剪。

特征选择

特征选择通过选取对训练数据具有更强分类能力的特征，提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。通常，特征选择的准则是信息增益或信息增益比。

信息增益（ID3算法）

熵是随机变量不确定性的度量，有限取值的离散随机变量 $X$ 的熵P为， $H(X)=\sum_{i=1}^np_i\log p_i,$ 其中 $p_i=P(X=x_i),i=1,\cdots,n$ 。当 $X$ 取各值的概率相等、即 $p_1=\cdots=p_n$ 时，随机变量的不确定性最大，熵 $H (X)$ 也最大。

条件熵定义为， $H(Y|X)=\sum_{i=1}^np_iH(|Y|X=x_i),$ 其中 $H(Y|X=x_i)$ 为将 $H (X)$ 中的先验概率换为条件概率 $P(Y=y_j|X=x_i)$ ，其含义是随机变量 $X$ 取值为 $x_i$ 时，随机变量 $Y$ 的不确定性。 $H (Y ∣ X)$ 为随机变量 $X$ 确定时，随机变量 $Y$ 的平均不确定性，平均取在 $X$ 的所有可能值上。

例如，若 $Y$ 与 $X$ 具有很强的联系—— $Y$ 可由 $X$ 唯一确定，则 $H(Y|X=x_i)=0$ ，相应的条件熵也为零，即当 $X$ 确定时， $Y$ 的不确定性为0。

信息增益表示得知特征 $X <$

最低0.47元/天解锁文章

PhD的自我修养

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树（Decision Tree）

决策树决策树是一种基本的分类、回归方法，呈树形结构。决策树定义如下：定义（决策树）：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。决策树学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型，预测时，对新的数据，利用决策树模型进行分类。决策树的学习包括三个步骤：特征选择，决策树的生成和决策树的修剪。特征选择特征选择通过选取对训练数据具有更强分类能力的特征，提高决策树学习的效率。如果
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。