【机器学习】(3)Bagging和随机森林

本文概述了决策树在机器学习中的应用,包括Bagging和随机森林的方法,重点介绍了贝叶斯投票机制、样本不平衡处理以及特征重要性的评估,如Gini指数和Permutation Importance。通过实例演示如何计算和解读特征权重。
摘要由CSDN通过智能技术生成

需先理解【机器学习】(2)决策树_mjiansun的博客-CSDN博客

1. Bagging

这里在选择分类器时,一般就选择一种分类器,而且会选择决策树这样的弱分类器,SVM和logistic属于强分类器。 

2. 随机森林

先选部分样本,再从这部分样本中挑选特征。

3. 投票机制

这个贝叶斯投票机制:

 具体使用可能需要自己定义新的公式。

4. 样本不均衡 

代价敏感学习这里我还是很理解,后面懂了我再来补充。 

5. 样本间相似度

有M棵树,每个数都会有很多叶子节点,这些所有的树的叶子节点假设为A个。

A1表示第一个叶子节点,假设当中有k个取值[x1,x2,...,xk],这里的x1,x2等表示样本序号,每个叶子的伪代码如下所示:

for i in [x1,x2,...xk]:
  for j in [x1,x2,...xk]:
    S[i,j] += 1

6. 使用随机森林计算特征重要度

6.1 selection frequency

100个样本使用属性1进行划分,说明属性1的重要度更高。我感觉和6.2的gini指数或者信息增益差不多。

6.2 gini importance

根节点与叶节点之间Gini差值,差值越大表明提供信息越多,也说明该特征越重要。

其实这个Gini差值与信息增益差不多,没什么区别我个人的看法,只不过一般随机森林喜欢使用Gini指数,所以这里我就以Gini指数讲解说明。

【机器学习】(2)决策树_mjiansun的博客-CSDN博客中的2.2.3

根据Gini指数:

 

 

6.3 permutations importance

随机去掉一维特征,查看召回率(或者准确率)与未去掉特征的召回率(或者准确率)之间的变化程度,如果变化较大(理论上未去掉特征的召回率(或者准确率)会比去掉某一维特征所得的召回率(或者准确率)要高),说明该特征比较重要。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值