随机森林:
理解:多棵决策树(CART树)https://blog.csdn.net/blank_tj/article/details/82081002组合而成,分类问题:每棵树投票找最高票;回归问题:每棵树的值求和取平均。
特点:随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322,所以每次训练随机从总数据 D D 中选择
条数据, N<D N < D 。每次选择的特征是从总特数 P P 中,随机选择
个特征,通常 Q<P Q < P 。重复 M M 次,生成
棵树。
通过这种每次随机数据,随机特征的方式进行建树。
优点:
1)训练速度快,泛化能力强,可并行建树,因为树与树相互独立;
2)能学到特征之间的相互影响,因为每次选择的特征不同;
3)可处理高维特征,因为不需要特征选择,用随机选择;
4)相比 SVM S V M ,不是很怕特征缺失,因为随机特征;
6)可以反馈哪些特征的权重,价值比较高。
随机森林和GBDT区别
1)随机森林采用的