机器学习算法进阶——决策树、随机森林

最新推荐文章于 2024-07-30 13:29:56 发布

糖糖Amor

最新推荐文章于 2024-07-30 13:29:56 发布

阅读量558

点赞数

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42873479/article/details/108875133

版权

机器学习算法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

决策树、随机森林——理论、实践

手写理论
决策树
随机森林（Random Forest）

手写理论

在这里插入图片描述
【CART classification & regression tree】
【决策树示意图】

决策树

条件熵

推导条件熵的定义式
在这里插入图片描述

熵越大，不确定性越大。某件事情发生的概率为1或者为0，那这个事件的熵为0。
从上到下建立一个熵不断减小的树。
$P(Y|X)=\frac{P(X|Y)}{P(X)}$

条件熵：H(X|Y)-H(X)
●(X,Y)发生所包含的熵，减去X单独发生包含的熵：在X发生的前提下，Y发生“新”带来的熵
●该式子定义为X发生前提下，Y的熵：条件熵 H(Y|X)

相对熵

【互信息】
●两个随机变量X，Y的互信息，定义为X，Y的联合分布和独立分布乘积的相对熵。
● $I (X, Y) = D (P (X, Y) ∣ ∣ P (X) P (Y))$
$I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

交叉熵：可以度量两个随机变量的“距离”
●相对熵，又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-leible散度等。
●设p(x),p(y)是X中的两个概率分布，则p对q的相对熵是
$D(p||q)=\sum_xp(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)}$
在这里插入图片描述

决策树学习算法的特点

在这里插入图片描述
【决策树学习的生成算法】

信息增益\信息增益率\基尼系数

在这里插入图片描述
【基本记号】
【信息增益的计算方法】
【经验条件熵】
【其他目标】
PS：基尼系数越小表示集合中被选中的样本被错分的概率越小，也就是说集合的纯度越高。基尼系数越小，数据的不确定性越小，基尼系数为0，数据集中所有样本都是同一类别。

【三种决策树算法】
在这里插入图片描述

决策树的评价

在这里插入图片描述【决策树的过拟合】

Bagging策略

在这里插入图片描述【OOB数据】

随机森林（Random Forest）

在这里插入图片描述

样本不均衡的常用处理方法：

在这里插入图片描述

使用RF计算样本间相似度

【使用RF计算样本间相似度】
在这里插入图片描述【使用RF计算特征重要度】

孤立森林 Isolation Forest：异常检测

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。