【决策树ID3算法/C4.5算法/CART算法+随机森林算法】机器学习公式推导计算+详细过程（入门必备）

最新推荐文章于 2024-08-22 09:38:43 发布

CV_William

最新推荐文章于 2024-08-22 09:38:43 发布

阅读量2.1k

点赞数

分类专栏：机器学习人工智能文章标签：决策树信息熵机器学习随机森林 RF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41194171/article/details/107146558

版权

机器学习同时被 2 个专栏收录

13 篇文章 2 订阅

订阅专栏

13 篇文章 0 订阅

订阅专栏

决策树可用于分类和预测。常见的决策树算法有ID3、C4.5和CART。
信息熵：不确定性的度量，事物越混乱就越不确定，信息熵越小越事物越确定。
信息增益：信息增益越大，事物的不确定性下降的越快，也就是说事物越趋近于确定，信息增益越大不确定性下降越快。
信息增益率：信息增益率越大，事物越确定。
基尼系数：不确定性的度量，事物越混乱就越不确定，基尼系数越小越事物越确定。

信息熵公式
$-\sum_{i=1} ^ m p_i log_{2}p_i$
上式中 $p_i$ 为 $i$ 类样本所占比例。

ID3:使用信息增益作为划分属性的依据。

信息增益公式
$\sum_{i=1} ^ m \frac{D_m}{D} Entropy(D_m)$

上式中 $\frac{D_m}{D}$ 为第m个划分节点的权重值。

C4.5:使用信息增益率作为划分属性的依据。

信息增益率公式
$\frac{Gain(D, A)}{Entropy(D)}$

上式中
$\sum_{i=1} ^ m \frac{|D_m|}{|D|} log_{2} \frac{|D_m|}{|D|}$

CART:使用基尼系数作为划分属性的依据。

基尼系数公式

推导：
$-\sum_{i=1} ^ m p_i log_{2}p_i$

$-\sum_{i=1} ^ m p_i (p_i - 1)$

$\sum_{i=1} ^ m p_i (1 - p_i)$

$\sum_{i=1} ^ m p_i^{2}$

结果：

$\sum_{i=1} ^ m p_i^{2}$

$\sum_{i=1} ^ m \frac{D_m}{D} Gini(D_m)$

比较ID3、C4.5和CART的分类误差率

如上图所示，

红线与x轴组成的区域为标准分类误差率。
绿线与x轴组成的区域为基尼系数分类误差率。
蓝线与x轴组成的区域为信息熵分类误差率。
bootstrap：自助采样法，即有放回采样。
oob ：oob全称out of bag。随机森林在bootstrap时大约有37%的样本没有取到，而这未取到的样本就是oob。
oob误差：用oob样本数据作为测试集时，计算得出的误差称为oob误差。
bagging：是一种集成学习的方法，基于bootstrap的采样方式。通过并行的方式将多个基学习器组合成一个强学习器。
[外链图片转存中…(img-lVXDR1MG-1593959645463)]
随机森林：由多颗决策树组成，可以用于分类和预测。随机森林有两个随机，分别是：样本随机和特征随机。

随机森林分类和回归的策略

分类：采用投票的方式，少数服从多数。每个树会投给某个类别，取所有树投票数最多的类别作为随机森林的输出。

回归：一般采用平均法。取所有决策树的均值作为随机森林的输出。

随机森林公式

普通平均法：
$\frac{1}{m} \sum_{i=1} ^ m g_i(x)$
上式中 $g_m(x)$ 为每个基学习器的值。

加权平均法：
$\sum_{i=1} ^ m w_i g_i(x)$
上式中 $w_i$ 为每个基学习器的权重。

欢迎大家交流学习，任何问题都可以留言

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。