（机器学习）决策树及其sklearn应用

最新推荐文章于 2024-02-27 22:14:31 发布

semine_shen

最新推荐文章于 2024-02-27 22:14:31 发布

阅读量413

点赞数

文章标签：决策树 python 信息熵机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/semine_shen/article/details/108000535

版权

本文探讨了决策树在回归和分类问题中的应用，如房价预测、贷款风险评估、邮件分类等。强调了决策树计算复杂度低、结果易理解以及对缺失值的不敏感性。同时，介绍了熵和基尼指数作为信息不确定性的度量，并讨论了信息增益作为选择特征的依据。针对过拟合问题，提出了剪枝策略。文章通过多个Python示例，包括香农熵和基尼系数计算、自定义决策树以及使用sklearn实现分类和回归任务。

摘要由CSDN通过智能技术生成

用途：

回归：房价预测、贷款风险评估
分类：邮件分类、保险行业的险种推广预测、医疗的辅助诊断

优点：

计算复杂度不高
输出结果容易理解
对中间值的缺失不敏感
可以处理不相关特征

缺点：

容易过拟合

使用数据类型：

数值型
标称型

算法原理：
决策树的原理就是通过 if-then 的过程将原本杂乱不确定的信息变成一个确定、有序的信息。
在这里插入图片描述
信息不确定的度量：

熵：香农熵
$\sum^k_i p_i * log(p_i)$
$D$ ：是一个数据集，有 $k$ 个类别
$p_i$ :表示第 $i$ 个类别在 $H$ 中的概率
GINI系数
$\sum^k_i p_i ^2$

*熵的计算要比GINI系数的计算稍慢，Sklearn中默认GINI系数，从效果上来讲并无明显差别。

决策前后，信息不确定性变化的度量：

信息增益： $g (D ∣ A) = H (D) -$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（机器学习）决策树及其sklearn应用

用途：回归：房价预测、贷款风险评估分类：邮件分类、保险行业的险种推广预测、医疗的辅助诊断优点：计算复杂度不高输出结果容易理解对中间值的缺失不敏感可以处理不相关特征缺点：容易过拟合使用数据类型：数值型标称型算法原理：决策树的原理就是通过 if-then 的过程将原本杂乱不确定的信息变成一个确定、有序的信息。信息不确定的度量：熵：香农熵H(D)=−∑ikpi∗log(pi)H (D)= - \sum^k_i p_i * log(p_i)H(D)=−∑ikp
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。