九,专著研读(集成学习)
- 集成学习
将若干弱分类器通过一定的策略组合之后产生一个强分类器,弱分类器也称基分类器。 - bagging(装袋)
装袋又称自主聚集,是根据均匀概率分布从数据集中重复抽样(有放回)的技术,每个新数据集和原始数据集大小相等,有放回的随机抽样可能导致新数据集中可能有重复的值,而原始数据集中的某些样本可能根本就没出现在数据集中。- bagging方法的代表算法是随机森林,随机森林的弱学习器都是决策树。
- boosting(提升)
boosting是一个迭代的过程,用来自适应地改变训练样本的分布,使弱分类器聚焦到那些很难分类的样本上。给每一个训练样本赋予一个权重,在每一轮训练结束时自动的调整权重。- Adaboost(boosting+决策树)
- GBDT()
- XGBoost
- 结合策略
- 平均法
对于数值类的回归预测问题,通常使用的结合策略是平均法。对于若干弱学习器的输出进行平均得到最终的预测输出。- 算数平均
\(H(x)=\frac{1}{n}\sum_{1}^{n}h_{i}\left ( x \right )\) - 带权重预测
\(H(x)=\frac{1}{n}\sum_{1}^{n}\omega _{i}h_{i}\left ( x \right )---s.t. \omega _{i}\geq 0,\sum_{1}^{n}\omega _{i}=1\)
- 算数平均
- 投票法
对于分类问题的预测,通常使用的是投票法。 - 学习法
将弱训练集弱学习器的学习结果作为输入,重新训练一个学习器。
- 平均法
- Adaboost算法
- 计算样本权重
赋予训练集中每个样本一个权重,构成权重向量D,将权重向量D初始化等值。 - 计算错误率
在训练集上训练一个弱分类器,并计算分类器的错误率。
\(\epsilon =\frac{分错的数量}{样本总数}\) - 计算弱分类器权重
\(\alpha =\frac{1}{2}ln(\frac{1-\epsilon }{\epsilon })\) - 调整权重值
根据上一次训练结果,调整权重值(分对的权重降低,分错的权重增加)
第i个样本被正确分类,样本权重更改为
\(D_{i}^{t+1}=\frac{D_{i}^{t}e^{-\alpha }}{Sum(D)}\)
第i个样本被错误分类,样本权重更改为
\(D_{i}^{t+1}=\frac{D_{i}^{t}e^{\alpha }}{Sum(D)}\)
- 计算样本权重
- 过拟合欠拟合
- 过拟合
所建的机器学习模型或者深度学习模型在训练样本中表现的过于优越,导致在验证数据集,以及测试数据集中表现不佳。 - 欠拟合
提取特征较少,训练出来的模型不完善。 - 解决过拟合方法
采用梯度下降法将模型中的损失函数不断减少,求出最优解,即“正则化”。增大训练样本规模。 - 增加特征不断训练。
- 过拟合
- GBDT
GBDT会定义一个lossFunction,每次生成的分类器都是沿着前面所有分类器的负梯度方向(一阶导数)建立起来。 - Xgboost
Xgboost同样会定义一个lossFunction,利用泰勒展开式将函数展开到二阶,利用二阶信息,更快地在训练集上收敛,树的生成是并行的。 - 分类模型评判指标
- 混淆矩阵
混淆矩阵是绘制ROC曲线的基础,同时也是衡量分类模型准确度最基本,最直观,计算最简单的方法。分别统计分类模型归错类,归对类的观测值个数,把结果放在一个表里进行展示,这个表就是混淆矩阵。 - ROC曲线
- 混淆矩阵