Voting
投票法的思路
voting – 集成学习常用技巧
可以提高模型的泛化能力,减少模型的错误率。
航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用
二进制信号,不小心传输发生了错误 打灭
常用的纠错方法 – 重复多次发送数据,少数服从多数
(hadoop也都很多vote场景
- 对于regression,投票法最终的预测结果是多个其他回归模型预测结果的平均值
- 对于classification,
- 硬投票法的预测结果是多个模型预测结果中出现次数最多的类别
- 软投票法对各类预测结果的概率求和,最终选取概率之和最大的标签
投票法的原理分析
少数服从多数原则的集成学习模型
通过多个模型额集成降低方差,从而提高模型robust。
在理想情况下,投票法的预测效果应当由于任何一个基模型的预测效果。
投票法的分类
- 回归投票法:预测结果=所有模型预测结果的平均值
- 分类投票法:预测结果=所有模型中出现最多的预测结果
- 分类硬投票:预测结果是所有投票结果最多出现的类
- 分类软投票:预测结果是所有投票结果中概率加和最大的类
(软投票考虑到了预测概率这一额外信息,因此可以得出比硬投票更加准确的预测结果)
voting产生好的结果,需要满足两个条件
- 基模型之间的效果不能差别过大
- 当某个基模型相对于其他基模型效果过差时,该模型很可能成为噪声
- 基模型之间应该有较小的同质性
- 例如在基模型预测效果近似的情况下,基于树模型与线性模型的投票,往往优于两个树模型或两个线性模型。
使用硬投票 or 软投票
当投票集合中使用的模型能预测出清晰的类别标签时,适合使用硬投票。
当投票集合中使用的模型能预测类别的概率时,适合使用软投票。
(软投票同样可以用于那些本身并不预测类成员概率的模型,只要他们可以输出类似于概率的预测分数值(e.g. SVM,kNN & Decision Tree)
投票法的局限性
它对所有模型的处理是一样的,这意味着所有模型对预测的贡献是一样的。
如果一些模型在某些情况下很好,而在其他情况下很差,这是使用投票法时需要考虑到的一个问题。
voting实践
dataset –