课程来源:林轩田《机器学习技法》
课程地址:
https://www.bilibili.com/video/av12469267/?p=1
1. bagging与boosting能否结合在一起?
2. 随机森林中除了随机样本和随机特征,还可以把随机特征看成是向一个低维空间的投影,这时候一些特征就要进行组合
这种方式下,其实更像是感知机模型了。
1)要投影,要先进行加权分数操作
2)分类,和感知机过某个门槛区分正负1很像
3. out-of-bag的数量
4. OOB error检验,对于每个样本,检验其未选中训练的分类器
优点:
1)不需要重复训练,训练完随机森林就能得到结果
2)一般很准
5. 特征选择中也可能过拟合,比如1w选300,可能选这300的过程就overfit到对现有样本很有效(但泛化能力差)的特征了。
6. 决策树在构建的时候就对特征进行选择了,我们能不能利用这一信息进行特征选择?
7. 利用决策树做特征选择
1)思路:如果一个特征对我们很重要,那么把它的值加入很多杂质,我们的模型就会变差很多
2)杂质怎么加?如果是引入平均或者高斯分布,那么除了引入杂质,还会引入新的分布信息。一种更好的方法就是洗牌,把我们该维度的数据洗牌,这样就不改变分布了
3)然后计算前后模型效果的差异,就知道该特征的重要程度了
4)注意到我们可以用OOB验证数据,因此表现也可以用EOOB来检验
5)进一步,我们不想再新训练一个模型怎么办?可以在OOB的时候偷懒,把OOB数据中该维度的数据洗牌,然后扔进建好的树里,然后用输出的结果进行检验
8. 直观理解随机森林
1)一棵树
2)boosting
3)随机森林:可以看到随着树增加,逐渐起到了类似SVM的效果
9. 树的稳定性不好,所以更多的树可以增加稳定性