以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’,外加个人整理添加,仅供个人复习使用。
1. Adaboost
集成算法中基于boosting思想的典型算法。
在分类问题中,因为有多个基础树模型,数据集上有些分得正确,有些错误,测试需要考虑,为什么会分错?样本难以判断时,是不是应更注重难度较大的,也就是需要给样本不同权重,做对的样本权重相对较低,因为已经做的很好,不需要额外关注,做错的样本权重需要增大,让模型更重视它。每一次划分数据集,都会出现不同错误样本,继续调整权重,目标是使模型优先解决之前还没有划分正确的样本。
最终将所有基础模型串在一起得到结果,引入模型权重系数a,相当于重要程度(根据模型评估结果如准确率确定):