笔者寄语:有一篇《有监督学习选择深度学习还是随机森林或支持向量机?》(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归。若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验。
——————————————————————————————————————————————
一、随机森林理论介绍
1.1 优缺点
优点。
(1)不必担心过度拟合;
(2)适用于数据集中存在大量未知特征;
(3)能够估计哪个特征在分类中更重要;
(4)具有很好的抗噪声能力;
(5)算法容易理解;
(6)可以并行处理。
缺点。
(1)对小量数据集和低维数据集的分类不一定可以得到很好的效果。
(2)执行速度虽然比Boosting等快,但是比单个的决策树慢很多。
(3)可能会出现一些差异度非常小的树,淹没了一些正确的决策。
1.2 生成步骤介绍
1、从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-bag,BBB)。
2、设有n 个特征,则在每一棵树的每个节点处随机抽取mtry 个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。
3、每棵树最大限度地生长, 不做任何剪裁
4、将生