《机器学习技法》第10课笔记 随机森林

课程来源:林轩田《机器学习技法》
课程地址: https://www.bilibili.com/video/av12469267/?p=1

1. bagging与boosting能否结合在一起?

2. 随机森林中除了随机样本和随机特征,还可以把随机特征看成是向一个低维空间的投影,这时候一些特征就要进行组合
这种方式下,其实更像是感知机模型了。
1)要投影,要先进行加权分数操作
2)分类,和感知机过某个门槛区分正负1很像

3. out-of-bag的数量

4. OOB error检验,对于每个样本,检验其未选中训练的分类器
优点:
1)不需要重复训练,训练完随机森林就能得到结果
2)一般很准

5. 特征选择中也可能过拟合,比如1w选300,可能选这300的过程就overfit到对现有样本很有效(但泛化能力差)的特征了。

6. 决策树在构建的时候就对特征进行选择了,我们能不能利用这一信息进行特征选择?

7. 利用决策树做特征选择
1)思路:如果一个特征对我们很重要,那么把它的值加入很多杂质,我们的模型就会变差很多
2)杂质怎么加?如果是引入平均或者高斯分布,那么除了引入杂质,还会引入新的分布信息。一种更好的方法就是洗牌,把我们该维度的数据洗牌,这样就不改变分布了
3)然后计算前后模型效果的差异,就知道该特征的重要程度了
4)注意到我们可以用OOB验证数据,因此表现也可以用EOOB来检验
5)进一步,我们不想再新训练一个模型怎么办?可以在OOB的时候偷懒,把OOB数据中该维度的数据洗牌,然后扔进建好的树里,然后用输出的结果进行检验


8. 直观理解随机森林
1)一棵树
2)boosting
3)随机森林:可以看到随着树增加,逐渐起到了类似SVM的效果



9. 树的稳定性不好,所以更多的树可以增加稳定性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值