本文部分内容摘取自:
https://blog.csdn.net/sinat_35821976/article/details/83622594
https://blog.csdn.net/u014248127/article/details/78993753
模型优化之模型融合简介
在产业化的机器学习建模任务中,耗时最长的是数据处理和模型优化两个方面,今天讲讲模型优化的方法。
对于初学者而言,模型优化一般仅仅体现在调参的工作之中,即通过对模型内置的参数或者正则项进行调优使模型表现达到最佳。然而在真正的机器学习任务中,模型调参只是很基本的一部分,一方面在于常用的机器学习方法中,单一模型的复杂度一般不高,基于给定的学习目标单一模型拟合的程度有上限;另一方面在于模型的优化往往在于对bad case的优化,而bad case的出现一般是由于模型本身局限性引起的,优化bad case一般需要重构模型结构或是重构基模型方法。
模型融合技术就可以很好的解决这些问题。所谓模型融合,就是先学习一组个体学习器,然后通过特定的手段将他们结合起来,以加强模型效果。其中个体学习器就是我们口头常说的机器学习算法,特定的手段就是模型融合所需学习的特别手段,这也是我们本文的主要内容。
模型融合为什么有效果呢?根据研究表明,随着个体学习器数目的增加,集成学习器的错误率将呈指数级下降,最终趋于零。因为个体学习器多样性大,最终准确率高,通俗的讲就是达到了“取长补短”的效果。
模型融合方法
模型融合技术主要分为两类:
一种是个体学习器之间不存在强依赖关系的融合方法,典型代表为Bagging
一种是个体学习器之间存在强依赖关系的融合方法,典型代表为Boosting
下面对各大主流模型融合方法进行介绍
1. Bagging方法
Bagging方法是从训练集中抽样得到每个基模型所需的子训练集,然后对所有基模型预测的结果进行综合,产生最终的预测结果
Bagging算法:采用的是自助采样法(Bootstap sampling),即对于m个样本的原始训练集,我们每次先随机采集一个样本放入采样集,接着把该样本放回,也就是说下次采样时该样本仍有可能被采集到,这样采集m次,最终可以得到m个样本的采样集,由于是随机采样,这样每次的采样集是和原始训练集不同的,