bagging算法:
自助抽样样本,
T个弱学习器中选择投票数最高的(分类)
T个弱学习器分别得到的回归结果进行算术平均得到的值(回归)
random forest: bagging算法进化
自助抽样,弱学习器:cart树
随机选择样本特征,增加泛化能力
T个弱学习器中选择投票数最高的(分类)
T个弱学习器分别得到的回归结果进行算术平均得到的值(回归)
优点小结(先记这几个,再补充)
1.抗噪声能力强2.属性抽样,样本抽样,增加泛化性,不容易过拟合3.训练速度快,4.能过处理高维度数据5.数据适应能力强,对缺失数据,非平衡数据也比较稳定
但是,在噪声较大的问题上容易过拟合。
adaboost
见链接:https://blog.csdn.net/unixtch/article/details/77846141
非自助抽样样本,初始化权重,弱学习器
用学习器误差率更新学习器权重
用样本误差率更新样本权重
平均加权法得到最终分类模型
平均加权法得到最终回归模型
损失函数:指数损失
优点:1.分类精度高
2.支持各回归分类模型来构建学习器,灵活方便
3.不容易过拟合
4.构造简单
缺点:对异常样本敏感
gdbt
- gbdt中的树都是回归树,不是分类树
非自助抽样样本,学习器(cart),每个分类器基于上一轮分类器的残差做训练— 需要累加所有的树结果,所以只能通过回归来完成。
原18岁,预测12岁, 负梯度认为6岁(残差)
6岁来拟合,得到3岁ÿ