学习周志华老师《机器学习》西瓜书第8章 集成学习 摘要及笔记。
个体与集成
集成学习:构建并结合多个学习器来学习任务。
同质的集成:只包含同种类型的个体学习器("基学习器"),相应算法称为“基学习算法”。
异质的集成:包含不同类型的个体学习器,由不同算法生成。
个体学习器应“好而不同”。
Boosting
Boosting是一族可将弱学习器提升为强学习器的算法,个体学习器间存在强依赖关系,必须串行生成。典型代表是AdaBoost。比较容易理解的是基于“加性模型”,即基学习器的线性组合
来最小化指数损失函数
Boosting主要关注降低偏差。
Bagging与随机森林
Bagging是并行式集成学习方法的代表,基于自助采样法。若基学习器的计算复杂度为O(m),则Bagging的复杂度大致为T(O(m)+O(s)).Bagging可以用于多分类,回归等任务。
Bagging主要关注降低方差。
随机森林是Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,在训练过程中引入了随机属性选择。随机森林简单,易实现,计算开销小,性能强大,训练效率优于Bagging。