Blending and Bagging
aggregation: mix and combine hypotheses for better performance
集成模型性能取决于子模型的期望和偏差
blending(多模型集成混合)
子决策桩的不同blending方式(线性非线性)
Bagging(多次重抽样模拟多样本)
AdaBoost
boost:放大错误样例抽样权重,使得错误出现的概率增加
blending:错误率作为合成的权重,错误率越低权重越大
算法步骤
- 初始步:样例抽样概率一致
- 迭代步:
- 放大错误样例抽样权重,缩小正确样例抽样权重
- 以子模型错误率的某个函数值作为子模型在集成模型的重的权重
子模型必须是弱模型
决策树桩
AdaBoost特点:子模型必须是弱模型,且子模型独立性越好模型性能越好
决策树
- 子树数目
- 子树分割条件
- 终止条件
- 基础假设
### CART算法:纯度分割子树(分裂回归树)
强可解释性,多分类,类别特征易处理,特征确实均分,非线性分类
纯度函数
![]()