最近做了不少的kaggle机器学习竞赛,总结出了一个经验:做好了feature enginering可以进到前百分之20,如果要进到前百分之10,那么就需要Ensemble method的支持了,所以最近专门深入了解了以下组合的各种方法。通过学习发现组合方法真的是屡试不爽,在竞赛的后期,黔驴技穷,走投无路之时,不妨试试组合方法,会让人豁然开朗,
组合历史提交答案
这是最简单的一种组合方法,只需要把以前提交的答案组合起来再提交一遍就能得到效果,在比赛后期与他人组队的时候,这招也尤为有效,可以直接将自己的结果与他人ensemble,只要保证足够的多样性,可以得到明显的效果。
Voting ensembles
投票组合,故名思议,就是在分类任务中让多个结果来投票,得票数多的类别就是最终答案。Error correcting codes
投票的方法常见于通信系统中的错误编码纠正,例如有以下编码:1110110011101111011111011011
但是由于某种原因变为了:
1010110011101111011111011011
在编码纠正中的常见技术是传递冗余编码,假设对于以上编码,同一码字传送3遍,最终可以通过投票来纠正偶尔错误的编码:
Original signal: 1110110011 Encoded: 10,3 101011001111101100111110110011 Decoding: 1010110011 1110110011 1