接上一篇《树分类与树回归》,进一步讲解将弱分类器集成强分类器的集成方法。
除了对现有理论知识的提炼汇总外,增加了很多自己的理解,请尊重原创。
一、集成原理
机器学习常常用来解决分类与回归的问题,我们总是希望找到一个这样模型,它不仅对现有数据具有很好的拟合能力,对测试数据也有优秀的泛化能力,同时希望计算成本越低越好。实际上,对于一个实际问题往往找不到这么完美的解决方案,但是寻找一个表现不那么差的模型还是容易的多。
老话说:“三个臭皮匠,顶个诸葛亮”。集成学习就是建立在这样的思想上,并且已经有严格的理论证明了【任意给定仅比随机猜测略好的弱学习算法可以提升为强学习算法】这样的弱学习算法与强学习算法的等价性问题。当然前提是弱学习算法的结果要比随机结果好一丢丢,用一堆与随机结果相同甚至更差的算法是不会集成出收敛至正确结果的模型的。
在集成的过程中,涉及到2个问题:
- 对弱学习器有什么要求?这些弱学习器可以不一样吗?
- 这些弱学习器都是等价的吗?最后要如何“统一”这些臭皮匠的结果呢?
针对第一个问题——个体学习器 / 弱学习器
- 1.1 个体学习器应当“好而不同”,保证准确性的同时尽可能让学习器间存在多样性。但准确性与多样性存在冲突,当准确性很高之后&#