书接上会:
答案是:有!
“三个臭屁匠,顶个诸葛亮!”
集成学习:
构建并组合多个学习器来完成学习任务
首先咱们先来介绍一个跟之前的决策树相关的集成学习的例子:
决策树的缺点是过拟合,但是有一个优点 可以进行复杂空间的分割
所以对于缺点有两种方法解决:
1.调参,调整剪枝参数去控制过拟合
2.集成学习,训练多颗树 ,成为森林
随机森林:
可以明显看出波动
集成学习方式:
少数服从多数,投票决定 ,加权计算,取概率最高
投票:
(1):
这个没什么可说的
(2):
可以选择加权:
构建并组合多个学习器来完成学习任务:
1.bagging 放回取样,训练不同的臭皮匠(典型算法就是随机森林)
加法模型+前向算法
加法模型就是说强分类器由一系列弱分类器线性相加而成
前向分布是在训练的过程中下一轮迭代产生的分类器是在上一轮基础上训练的来的
看看enseble函数中的函数实现:
Out of Bag-oob
因为是放回取样所以有一部分样本数据没有取到,大概有37%,把这部分没有取到的样本称为 oob 数据,所以可以用它作为测试集
Random Subspaces:针对特征进行随机取样
Random Patches :既针对样本,又针对特征进行随机取样
随机森林:随机选特征,然后选最优分割
2.Extra-Tree
使用随机特征和随机分割点
3.Boosting
每个模型都在尝试增强整体效果
Ada Boosting 错题加权
Gradient Boosting 只训练错题