集成学习
随机森林以决策树为基础,属于集成学习方法,所以应先了解集成学习。
通俗地讲,集成学习就是利用集体的智慧做决策。使用集成学习的方法可以将多个模型相结合,提升模型的泛化性能,降低决策的风险。与单一模型相比,集成学习通常会产生更准确、更稳定的预测结果。集成学习首先需要有多个模型,每个模型作为个体学习器,然后通过结合模块进行输出,如图所示:

根据个体学习器的生成方式,集成学习可以分为两大类:一类是Bagging,个体学习器之间可以同时生成(并行),没有前后依赖关系;另一类是Boosting,个体学习器必须依次生成(串行),存在前后依赖关系。
对于分类任务的模型融合,集成学习一般采用多数表决的方法决定最终的输出;而对于回归任务,则可以取每个模型预测结果的均值作为最终的输出
Bagging
Bagging 是由 Bootstrap Aggregating 的缩写而来。首先对原数据集进行有放回地随机采样(Bootstrap Sampling),然后使用采样的数据集训练个体学习器,最后将这些个体学习器相结合。具体来说,若原数据集有 m m m 个样本,则有放回地采样出 T T T 个大小为 m m m 的训练集用于训练个体学习器
374

被折叠的 条评论
为什么被折叠?



