一、投票法
【Def】属于集成学习的一种,可帮助提升模型的泛化能力,减少模型的错误率。
【Compute】对回归模型:投票法可以是多个模型的预测值的平均值、众数或者中位数
对分类模型:硬投票法——多个模型预测值中,出现次数最多的类别
软投票法——对各类预测结果的概率求和,选取概率之和最大的类别
【原理】
1.少数服从多数,通过多模型集成降低泛化误差中的方差项,提升模型的鲁棒性。理想情况下,投票法的预测能力>任何一个基模型
2.由于软投票和硬投票的预测区别,得到的结果也可能不同,一般软投票考虑了预测概率,会得到比硬投票更加准确的预测结果
3.不同基模型的影响:
1)基模型之间在效果(泛化能力)上不能差别过大。当某个基模型相对于其他基模型效果过差时,该模型很可能成为噪声
2)基模型之间应该有较小的同质性(最好是具有独立的预测结果)。例如在基模型预测效果近似的情况下,基于树模型+线性模型的投票,会比两个树模型或者两个线性模型的效果好。
当基模型可以直接预测类别label时,适合用硬投票;当基模型能预测类别概率时,则适合用软投票(或者是输出预测分数值——SVM的decision function,KNN,Decision Tree)
【局限性】
投票法对所有模型赋予相同的权重,每个模型贡献相同。容易出现噪声
二、Bagging
【与投票法的区别】不仅仅集成了基模型的预测结果,同时采用一定的策略来影响基模型的训练,保证基模型服从一定假设。就如上一部分中提到的,希望各个模型间有较大差异,而实际中模型往往同质,因此一个思路是从采样入手
【原理】
Bagging的核心在于Bootstrap法(多次有放回取样),即假定既有数据集T有N个样本,我们做M次有放回取样n个样本,对这M个dataset作为training set训练得到M个模型,并对M个模型做结合(投票法)
预测:回归模型——平均值;分类模型——多数表决。
模型有效性:基学习器类似,泛化能力接近,噪声较小;同时训练集略有不同,使得基学习器同质性较小,存在略微差异,又会具有略微不同的训练能力
Bagging法同时原理也是通过降低泛化误差中的方差项来提升泛化能力(虽然重采样一定程度上有偏,但导致的偏差上升被方差减小所覆盖)。同时对高维数据来说,列抽样也是一个提升泛化能力的做法。