【机器学习】分类决策树基本介绍+代码实现

最新推荐文章于 2024-08-04 21:08:26 发布

maershii

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量3.5k

点赞数 3

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013166817/article/details/84590855

版权

本文介绍了分类决策树的基本概念，包括信息增益、信息增益率和基尼系数等划分依据，以及ID3、C4.5、CART算法的比较。讨论了决策树的剪枝策略，如预剪枝和后剪枝，以防止过拟合。同时，还涉及了如何处理连续属性和缺失属性的问题，并提供了代码实现的参考。

摘要由CSDN通过智能技术生成

参考：https://blog.csdn.net/u012351768/article/details/73469813

1.基础知识

基于特征对实例进行分类。

优点：复杂度低，输出结果易于理解，缺失中间值不敏感，可处理不相关特征数据。

缺点：过度匹配。

适用数据类型：标称和数值型。（数值型需要离散化）

构建决策树时，在每次分支时都要选择最能区分数据的特征。

2.划分数据集依据

2.1 信息增益（ID3），越大越好

D：数据集

A：特征A

K：类别的集合 k~K

D的经验熵：

$H(D) = -\sum_{k=1}^{K}\frac{|D^k|}{|D|}log_2\frac{|D^k|}{|D|}$ ，（表示数据集D的纯度，H越小，纯度越高）

特征A将数据集D分成N个数据集，特征A对数据集D的经验条件熵：

$H(D|A) = \sum_{i = 1}^{N} \frac{|D_i|}{|D|}H(D_i)$ ，（即给定特征A，计算每个子数据集的纯度再求和，表示给定A后数据集的纯度，数值越小纯度越高）

特征A对数据集的信息增益：

G(D, A) = H(D) - H(D|A) ，（即特征A帮助提升的纯度的大小，值越大越好）

2.2 信息增益率（C4.5）越大越好

由于信息增益会偏向取值较多的特征（过拟合），解释：当特征A取值很多，则划分出的组数增多，使得H(D|A)减小，则信息增益增大。但是过于精细的划分，会使得分类失去意义。（比如按照身份证号给人分类，则每一个人都是一类）。

特征A对数据集D的信息增益率：

$G_r(D,A) = \frac{G(D,A)}{H(A)}$

其中，特征A将数据集分成N类，则对于所有特征A相对应的数据的N个类的信息经验熵为（即表示了特征A为类别标签时，数据D的纯度）：

$H(A) = - \sum_{i=1}^{N}\frac{|D_{A}^i|}{|D_A|}log_2\frac{|D_{A}^i|}{|D_A|}$

因为当A将数据集D分成太多类时，其纯度降低，H(A)增加，相当于给信息增益添加了一项惩罚项。

2.3 Gini系数（CART）越小越好

基尼指数：从数据集里随机选取子项，度量其被错误分类到其他分组里的概率。基尼系数指数据的不纯度，越小越好。

CART是一个二叉树分类。

K

最低0.47元/天解锁文章

关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

maershii CSDN认证博客专家 CSDN认证企业博客

码龄11年

39: 原创

18万+: 周排名

47万+: 总排名

13万+: 访问

: 等级

1424: 积分

25: 粉丝

56: 获赞

10: 评论

406: 收藏

私信

关注

热门文章

分类专栏

python 1篇
lintcode 1篇
github 1篇
软件安装与使用 1篇
机器学习 10篇
leetcode 21篇
深度学习 3篇
NLP 2篇

最新评论

【leetcode】输出一个数的所有质数因子
【浅滩】: [code=csharp] #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> int main() { int a, b; b = 2; //输入你要计算的值 scanf("%d", &a); //判断大于1,1没有质因数 while (a>1) { //判断b是否是a的因数，是就进入循环，否就判断下一个自然数 if (a % b == 0) { //将值分解成质数相乘的式子如：12 = 2*2*3 //将确定是因数的值不断循环除尽然后输出 //偶数中只有2是质数，且是所有数中最小的质数 while (a % b == 0) { //循环将确定是因数的值不断除尽 a = a / b; } //输出确定的因数 printf("%d\n", b); } else { //判断不是因数，就跳过判断下一个 b++; } } return 0; } [/code]
【机器学习】朴素贝叶斯基本介绍+代码实现
qq_40902046: 上面的正则表达式写错了吧
【机器学习】线性回归+代码实现
wangkai12123: 想要数据集
【leetcode】输出一个数的所有质数因子
飞鱼9372: 判断n%i == 0以后没有给n重新赋值，造成while死循环[code=python] def findPrime(n): if n <= 1: return i = 2 res = [] while n > 1: if n%i == 0: n = n/i res.append(i) else: i+=1 return res [/code]
【机器学习】线性回归+代码实现
qq_44686396: 找不到你的feliname文件

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。