基于Random Forest处理Imbalanced Data

最新推荐文章于 2024-03-31 08:37:01 发布

lww1993

最新推荐文章于 2024-03-31 08:37:01 发布

阅读量1.8k

点赞数

分类专栏：机器学习算法文章标签： RandomForest ImbalancedData

机器学习算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

以下内容参考

http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf

Chen Chao, Andy Liaw, Leo Breiman基于random forest提出了两种新的处理不平衡数据的方法。

===========================================================================================

第一种方法称为balanced random forest:

1. 在建立每棵树的时候，先从小类里面进行Bootstrap抽样，得到K个样本，再从大类里面进行抽样，也得到K个样本；

2. 基于CART建立树，并且这棵树的size尽量地大，不要裁剪，而且这棵树每次分叉的时候，只利用其中的 $m_{try}$ 个变量；

3. 重复以上的步骤，建立M棵树，进行最后的投票决策！

===========================================================================================

第二种方法称为weighted random forest:

1. 我们给两个类不同的权重( $\omega_1,\omega_2$ );

2. 利用Gini系数寻找分割的时候，给不同的样本点以不同的权重；

3. 每棵树terminal node的类别也是基于权重给定的，即不同的类个数乘以相应的权重；

4. 最终做判断的时候，每棵树的结果也要乘以相应的权重，即这个terminal node中的权重平均值。

===========================================================================================

上面的算法是基于random forest算法的，在Introduction to statistical learning with R中有详细的算法介绍。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。