决策树

最新推荐文章于 2022-11-22 15:58:59 发布

溪逸筱

最新推荐文章于 2022-11-22 15:58:59 发布

阅读量355

点赞数

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40764503/article/details/105138692

版权

决策树算法

1. 决策树分类
2. 决策树原理
3. 决策树要解决的问题
- 1.构造树
- 2. 预测
4. 剪枝——防止过拟合
5. 决策树好坏的评判标准

1. 决策树分类

分类决策树（用于分类问题）
回归决策树（用于回归预测问题）

2. 决策树原理

主要原理是先选择数据的信息增益（ID3）或信息增益率（C4.5）或基尼系数（CRAT）对数据进行划分，在此过程中每进行一次划分需要更新相应的信息增益、信息增益率和基尼系数，直至样本被完全分开，为了防止过拟合的发生，需要进行剪枝，剪枝方式有预剪枝和后剪枝。
决策树算法的两个重要问题是构造树和预测。

1. 熵(Entropy)

表示系统的混乱程度，熵值越大,越混乱
$-\sum_{i=1}^n P_ilog_2(P_i)$
如何直观理解这个式子？
例如两个系统
$A= \{1,2,3,4,5\}，其概率分别为1/5,1/5,1/5,1/5,1/5$
$B= \{1,1,1,1,2\}，其概率分别为4/5,1/5$
$\frac{1}{5})$
$Ent(B)=-\frac{4}{5}ln(\frac{4}{5})-\frac{1}{5}ln( \frac{1}{5})<Ent(A)$
根据熵值越大,越混乱，即系统A比B混乱，B更加“纯”

2. 信息增益

$G a i n (信息增益) = E n t (D) - E n t (a)$
如何理解？
Ent(D)表示系统D总的熵，Ent(a)表示按a属性进行划分后系统的熵

例如以西瓜书上的例子
在这里插入图片描述

$-\sum_{i=1}^n P_ilog_2(P_i) = -\frac{8}{17}log_2( \frac{8}{17})-\frac{9}{17}log_2( \frac{9}{17}) = 0.998$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

决策树算法1. 决策树分类2. 决策树原理1. 熵(Entropy)2. 信息增益3. 信息增益率4. Gini 系数3. 决策树要解决的问题1.构造树2. 预测4. 剪枝——防止过拟合5. 决策树好坏的评判标准1. 决策树分类分类决策树（用于分类问题）回归决策树（用于回归预测问题）2. 决策树原理主要原理是先选择数据的信息增益（ID3）或信息增益率（C4.5）或基尼系数（CRAT）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。