【机器学习】（3）Bagging和随机森林

mjiansun

已于 2022-03-25 10:13:20 修改

阅读量995

点赞数

分类专栏：机器学习文章标签：随机森林算法机器学习

于 2022-03-18 21:39:25 首次发布

原文链接：https://www.bilibili.com/read/cv8437838

版权

机器学习专栏收录该内容

174 篇文章 40 订阅

订阅专栏

本文概述了决策树在机器学习中的应用，包括Bagging和随机森林的方法，重点介绍了贝叶斯投票机制、样本不平衡处理以及特征重要性的评估，如Gini指数和Permutation Importance。通过实例演示如何计算和解读特征权重。

摘要由CSDN通过智能技术生成

需先理解【机器学习】（2）决策树_mjiansun的博客-CSDN博客

1. Bagging

这里在选择分类器时，一般就选择一种分类器，而且会选择决策树这样的弱分类器，SVM和logistic属于强分类器。

2. 随机森林

先选部分样本，再从这部分样本中挑选特征。

3. 投票机制

这个贝叶斯投票机制：

具体使用可能需要自己定义新的公式。

4. 样本不均衡

代价敏感学习这里我还是很理解，后面懂了我再来补充。

5. 样本间相似度

有M棵树，每个数都会有很多叶子节点，这些所有的树的叶子节点假设为A个。

A1表示第一个叶子节点，假设当中有k个取值[x1，x2，...，xk],这里的x1，x2等表示样本序号，每个叶子的伪代码如下所示：
for i in [x1,x2,...xk]:
  for j in [x1,x2,...xk]:
    S[i,j] += 1

6. 使用随机森林计算特征重要度

6.1 selection frequency

100个样本使用属性1进行划分，说明属性1的重要度更高。我感觉和6.2的gini指数或者信息增益差不多。

6.2 gini importance

根节点与叶节点之间Gini差值，差值越大表明提供信息越多，也说明该特征越重要。

其实这个Gini差值与信息增益差不多，没什么区别我个人的看法，只不过一般随机森林喜欢使用Gini指数，所以这里我就以Gini指数讲解说明。

【机器学习】（2）决策树_mjiansun的博客-CSDN博客中的2.2.3

根据Gini指数：

6.3 permutations importance

随机去掉一维特征，查看召回率（或者准确率）与未去掉特征的召回率（或者准确率）之间的变化程度，如果变化较大（理论上未去掉特征的召回率（或者准确率）会比去掉某一维特征所得的召回率（或者准确率）要高），说明该特征比较重要。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】（3）Bagging和随机森林

1. Bagging这里在选择分类器时，一般就选择一种分类器，而且会选择决策树这样的弱分类器，SVM和logistic属于强分类器。2. 随机森林先选部分样本，再从这部分样本中挑选特征。3. 投票机制这个贝叶斯投票机制：具体使用可能需要自己定义新的公式。4. 样本不均衡代价敏感学习这里我还是很理解，后面懂了我再来补充。5. 样本间相似度6. 使用随机森林计算特征重要度6.1 selecttion frequency...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。