随机森林(RF)
集成算法(E内设目标了learning)
目的:
让机器学习效果更好,类似集成电路。
集成学习
Bagging:训练多个模型取平均(各模型相互独立,并行)
Boosting:从弱学习期开始,通过加权来进行训练(隔膜型间存在关系,串行),随机森林就是一种Bagging
Stacking:聚合多个分类或回归模型
RF
随机森林:
每次从训练集中随机选择一定比例的数据,作为决策树的输入数据,因为输入数据不同,没课决策树的结果也不同,决策树之间相互独立,互不影响,随机森林的结果是所有决策树中出现次数最高的那个结果。
优势:
能够处理高维度的数据,并不用做特征选择;在训练完后,他能够给出哪些特征比较重要;容易做成并行方法,速度比较快;可视化强,容易理解
需要多少棵树
理论上树越多越好,但实际上基本超过一定数量就趋于稳定了。
梯度提升树(GBDT)
GBDT算法属于Boosting,举个例子,label1等于1000,第一棵树预测为950,第二棵树预测第一棵树的残差,label2等于50,它的预测是30