集成学习
Bagging
降低模型的方差
Boosting
降低模型的偏差
步骤:
- 1)、初始化训练数据权重 1/N
- 2)、计算弱分类器的误差,以及弱分类器的权重(以分类为题为例)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J5HI0IpH-1569566833049)(en-resource://database/535:1)]@w=600[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K7ESXAtx-1569566833050)(en-resource://database/537:1)]@w=200 - 3)、更新数据权重:增加被误分类数据的权重,减小正确分类数据的权重
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Dy3lQPGu-1569566833051)(en-resource://database/539:1)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KsFafXqW-1569566833052)(en-resource://database/541:1)] - 4)、最终的分类结果:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYrM0JTh-1569566833053)(en-resource://database/543:1)]
Boosting系列算法里最著名算法主要有AdaBoost算法和提升树(boosting tree)系列算法。提升树系列算法里面应用最广泛的是梯度提升树(Gradient Boosting Tree)。
随机森林(Random Forest,RF)
Bagging,有放回的随机采样,根据大数定律,样本中会有1/e~0.368的数据会不被采到,这些数据被称为袋外数据(out of bag, OOB),可以用这些数据来检测模型的泛化能力。 弱分类器常用的模型:决策树和神经网络
Bagging模型的改进
1、CART决策树作为弱学习器
2、CART最优特征的选择进行了改进,不是基于所有的n个样本特征中选择最优的特征划分左右子树,而是随机的选择部分样本特征
随机森林的推广
1、extra trees
extra trees是RF的一个变种, 原理几乎和RF一模一样,仅有区别有:
1) 对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而ext