机器学习-决策树特征选择

Carrie_Lei

已于 2024-09-06 14:40:28 修改

阅读量592

点赞数 19

分类专栏：机器学习文章标签：机器学习决策树人工智能

于 2024-09-06 14:36:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/finly4599/article/details/141959174

版权

机器学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

决策树算法在构建树的过程中，需要选择最佳特征作为分裂点。为了衡量分裂的好坏，有几种常用的标准：信息增益、基尼系数、和方差减少。它们的作用都是评估分裂后子节点的纯度，以下是详细解释：

1. 信息增益（Information Gain）

信息增益主要用于分类问题，通过熵（Entropy）的减少来衡量一个特征对分类的影响。

熵（Entropy）

熵表示系统的混乱度或不确定性。熵越大，表示样本的混乱度越大，类别分布越不确定；熵越小，系统越有序。熵的公式为：

$\sum_{i=1}^{n} p_i \log_2(p_i)$

( S ) 是一个数据集
( $p_i$ ) 是第 ( $i$ ) 类的样本所占的比例

信息增益

信息增益表示特征引入后，熵减少的量，即分裂前后的信息差。信息增益公式：

$\text{Information Gain}(S, A) = \text{Entropy}(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} \text{Entropy}(S_v)$

其中，( S ) 是数据集，( A ) 是特征，( $S_v$ ) 是特征 ( A ) 的第 ( v ) 个值对应的子集。

优点：信息增益适合于多种特征，尤其是离散型特征。

缺点：信息增益可能偏向选择取值较多的特征，造成模型复杂化。

2. 基尼系数（Gini Index）

基尼系数也常用于分类问题，用于衡量数据集的纯度。基尼系数越小，数据集的纯度越高。它用于分类和回归树（CART）算法中。

基尼系数公式：

$\sum_{i=1}^{n} p_i^2$

其中：

( S ) 是数据集
( $p_i$ ) 是第 ( $i$ ) 类的样本比例

基尼系数的变化：

对于某个特征 ( A ) 产生的分裂，其基尼系数的变化量为：

$\Delta Gini = Gini(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} Gini(S_v)$

优点：

基尼系数计算简单，且不偏向具有较多取值的特征。
更注重提升分裂后的节点纯度，通常比信息增益更适合CART算法。

缺点：和信息增益类似，无法完全避免噪声对结果的影响。

3. 方差减少（Variance Reduction）

方差减少主要用于回归问题，用于衡量一个特征对连续变量的分裂效果。目标是减少分裂后节点的方差，方差越小，意味着分裂后的子节点越纯。

方差公式：

对于回归树，数据集 ( S ) 中的方差定义为：

$\text{Variance}(S) = \frac{1}{|S|} \sum_{i=1}^{|S|} (y_i - \overline{y})^2$

其中，( $y_i$ ) 是样本的真实值，( $\overline{y}$ ) 是样本的均值。

方差减少公式：

特征 ( A ) 的方差减少量为：

$\Delta \text{Variance}(S, A) = \text{Variance}(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} \text{Variance}(S_v)$

优点：

方差减少适用于回归问题，帮助找到能够最小化误差的特征。

缺点：如果数据集存在异常值，方差减少可能会受到异常值的显著影响。

总结：

信息增益：用于分类问题，基于熵的减少，适合离散特征。
基尼系数：用于分类问题，基于纯度的提升，常用于 CART 算法。
方差减少：用于回归问题，基于方差的减少，适合连续目标变量。

选择哪个标准取决于具体问题是分类还是回归。分类树常用信息增益或基尼系数，回归树通常使用方差减少。

关注

19
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Carrie_Lei

CSDN认证博客专家 CSDN认证企业博客

码龄15年

207: 原创

5759: 周排名

8151: 总排名

12万+: 访问

: 等级

4572: 积分

1753: 粉丝

2476: 获赞

17: 评论

2079: 收藏

私信

关注

热门文章

分类专栏

Python 14篇
数据库 6篇
AI工具 9篇
大模型 21篇
云计算 3篇
深度学习 31篇
NLP 16篇
CV 52篇
Python后端 4篇
机器学习 26篇
JavaScript
IOS
Android 1篇
Java 1篇
认证 4篇

最新评论

项目-机器学习分析电信用户的流失原因
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619340768。
数据库-Windows上虚拟机安装OpenGaus22.03
m0_74811578: 请问该如何解决在输入用户密码登录后，不管输入什么命令（如gs_om）都显示command not find
小程序商城系统（一）
didibibiasdas: 如果是非编程专业出身，又或者平时没有涉猎相关知识的企业来说，用SAAS做小程序的方式，效率和性价比最高。我公司的小程序就是用电脑在比文云官网做的，套个模板，拖拽式就能做出小程序，能满足98%的功能需求，没必要为了那2%的功能给更多钱，做个小程序必须是要在几千块以内能搞掂的。
大模型-部署LLM项目
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
华为AI认证必刷题100道（下）
Kwan的解忧杂货铺@新空间代码工作室: 感谢博主的分享，每一篇文章都是一份珍贵的学习资料。博主的文章写得非常详细，让我不仅学到了知识，还培养了对这个领域的浓厚兴趣。期待未来更多的独到见解和教程！希望博主能继续分享这样有深度的文章！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。