Bagging和随机森林

最新推荐文章于 2024-07-22 08:40:15 发布

智元说车

最新推荐文章于 2024-07-22 08:40:15 发布

阅读量3.9k

点赞数 3

分类专栏：机器学习文章标签：机器学习 bootstrap 算法决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012771351/article/details/53190585

版权

机器学习专栏收录该内容

35 篇文章 4 订阅

订阅专栏

注：本文中所有公式和思路来自于邹博先生的《机器学习升级版》，我只是为了加深记忆和理解写的本文。

本文其实是接着上一篇文章决策树来说的，将会谈到两个机器学习算法：Bagging和随机森林

其实Bagging和随机森林的思想都是可以普适性的用在其他的分类器上的，思想其实都是可以通用的，只不过有的合适有的不合适而已，决策树就是一种比较合适用Bagging和随机森林来提升的分类器之一。

Bagging

BootStrap Aggregation：从样本中重采样(有重复的)选出n个样本，在所有的属性上，对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)。

重复上述步骤m次，得到m个分类器，将所有数据放在这m个分类器上，最后根据这m个分类器的投票结果决定属于哪一类。

有论文证明，BootStrap 采样，大约会有63%是不重复的：

里边的具体证明咱就不管了，知道这么个事情就可以了。

这幅图是说明了Bagging的这个过程以及投票。

随机森林

随机森林在Bagging的基础上做了修改：

(1): 从样本中用BootStrap 采样了n个样本。

(2): 从所有属性中随机选择K个属性，选择最佳分割属性作为结点建立CART决策树。

(3): 重复上边2步m次，即建立m棵CART决策树。

(4): 这m棵CART树形成随机森林，通过投票表决结果属于哪一类。

我们介绍的是使用决策树作为基本分类器，当然也可以是别的分类器。

当然了，除了分类问题，回归问题也可以尝试使用：

显然红色曲线基本上优于每一条灰色的，其实红色曲线就是灰色曲线取平均得来的，这样的红色曲线是比较稳定的并且不容易过拟合。

最后介绍一下投票机制，可能你会觉得投票还不简单，少数服从多数呗，此言差矣啊。

简单投票机制：

(1): 一票否决

(2): 少数服从多数（可以加权）

(3): 阈值表决（就像美国选总统那样，但是Trump还是赢了）

贝叶斯投票机制：

假定有N个用户可以为X个电影投票(假设某位投票者不可对同一电影重复投票)，投票有1，2，3，4，5个档。

根据用户投票可以对电影排序：

本质是分类问题，对于某电影，有N个决策树，每棵树对电影有一个分类(1,2,3,4,5)，求这电影属于哪一类？（如果可以是小数，就变成了回归问题）

一种可能：

WR：加权得分(weighted rating)

R：该电影的用户投票的平均得分(Rating)

C：所有电影的平均得分

v：该电影的投票人数(votes)

m：排名前250名电影的最低投票数

我们现在来分析一下这个公式，假设现在有一个电影，没人投票，那么也就是v = 0，那么也就是说该电影的得分就是所有电影的平均分。假设m这个超参数是0，那么也就是说最后的得分就是用户的投票啊。

还是很有道理的吧，还是很喜欢贝叶斯思维的。

到此Bagging和随机森林就介绍完了，欢迎批评指正！

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

智元说车 CSDN认证博客专家 CSDN认证企业博客

码龄11年

34: 原创

23万+: 周排名

81万+: 总排名

12万+: 访问

: 等级

1653: 积分

64: 粉丝

67: 获赞

7: 评论

119: 收藏

私信

关注

热门文章

分类专栏

机器学习 35篇
linux 2篇
deep learning 1篇

最新评论

HMM之前向后向算法
weixin_46083434: 你好，非常感谢你的讲解让我可以把前向算法和后向算法结合起来理解，不过还有两个问题不是很明白，1. 单个状态的概率那个公式，分母P(o|lamda) 换成alphat(i)*betat(i)再对所有i（状态）求和，是因为生成观测序列o的总概率是t时刻下每个i（状态）可能的概率之和吗？ 2. 最后那个联合概率转换到最终结果不太明白，请问可以请教一下再具体一点的步骤吗？谢谢
LDA-隐狄利克雷分布-主题模型
leilei9406: 想请问下如果做短文拼接可以有哪些方法，我正在做一个短文本的LDA结果不是很好，可以请教下您吗？
变分算法
qq_36711371: 请问一下，P（x）和q（x）的距离公式中，α=1的时候，公式为什么会退化为KL(p||q)，α=1时，分母为0.
HMM之前向后向算法
Chester_ieee: 前后向概率的公式，i和t好像是写反了。
聚类之层次聚类与密度聚类
落入凡间的奥特曼: 你好，请问这个机器学习升级版是课程吗?

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。