CNN学习笔记(8)---模型集成方法

最新推荐文章于 2024-07-05 14:52:19 发布

Codename-NC

最新推荐文章于 2024-07-05 14:52:19 发布

阅读量4.9k

点赞数 5

分类专栏：笔记-算法文章标签： CNN 模型集成集成学习

本文链接：https://blog.csdn.net/ericcchen/article/details/80103029

版权

笔记-算法专栏收录该内容

17 篇文章 2 订阅

订阅专栏

13.模型集成方法

深度模型的集成多从“数据层面”和“模型层面”两方面着手

13.1 数据层面的集成方法

13.1.1 测试阶段数据扩充

训练阶段的数据扩充手段：图像多尺度，随机扣取

等都可以用到测试阶段

以随机扣取为例，对某张测试图像可得到 n 张随机扣取图像，

测试阶段只需用训练好的深度网络模型对 n 张图分别做预测，之后将预测

的各类置信度平均作为该测试图像最终预测结果即可

13.1.2 “简易集成”法(easy ensemble)

针对不平衡样本问题的一种集成学习方法

“简易集成”法对于样本较多的类采取降采样，

每次采样数依照样本数目最少的类别而定，这样每类取到的样本数可保持均等。

采样结束后，针对每次采样得到的子数据集训练模型，如此采样、训练反复进行多次。

最后对测试数据的预测则依据训练得到若干个模型的结果取平均或投票获得

13.2 模型层面的集成方法

13.2.1 单模型集成

1.多层特征融合

针对单模型的一种模型层面集成方法

深层卷积神经网络特征具有层次性

不同层特征富含的语义信息可以相互补充

多层特征融合操作时可直接将不同层网络特征级联（concatenate）

最好使用靠近目标函数的几层卷积特征，因为愈深层特征包含的高层语义性愈强、分辨能力也愈强；

2.网络“快照”集成法(snapshot ensemble)

深度神经网络模型复杂的解空间中存在非常多的局部最优解

经典的SGD方法只能让网络模型收敛到其中一个局部最优解

snapshot ensemble 通过循环调整网络学习率(cyclic learning rate schedule)使网络依次收敛到不同的局部最优解

将网络学习率 $\eta$ 设置为随模型迭代轮数 $t$ 改变的函数

η (t) = \frac{η_{0}}{2} (c o s (\frac{π m o d (t - 1, ⌈ T / M ⌉)}{⌈ T / M ⌉}) + 1)

$\eta(t) = \frac{\eta_0}{2}(cos(\frac{\pi mod (t-1,\lceil T/M \rceil)}{\lceil T/M \rceil})+1)$

η0 η 0 $\eta_0$ : 初始学习率，一般设为0.1，0.2

t: 模型迭代轮数，mini-batch 批处理训练次数

T：模型总的批处理训练次数

M：学习率 循环退火(cyclic annealing) 次数，对应模型将收敛的局部最优解个数

利用cos函数的循环性来循环更新网络学习率

当经过“循环余弦退火”对学习率的调整后，每个循环结束可使模型收敛到一个不同的局部最优解

每个循环结束后保存的模型，称之为模型快照

一般挑选最后m个模型“快照”用于集成

13.2.2 多模型集成

多模型生成策略

同一模型不同初始化：特别针对小样本学习场景
同一模型不同训练轮数：“轮数集成”，将最后几轮训练模型结果做集成，一方面降低随机误差；一方面避免了训练轮数过多带来的过拟合风险
不同目标函数：
- 分类任务为例：“交叉熵损失函数”、“合页损失函数”、“大间隔交叉熵损失函数”、“中心损失函数”作为目标函数分别训练模型；
- 在预测阶段，既可以直接对不同模型预测结果做“置信度级别”（score level）的平均或投票,
- 也可以做“特征级别”（feature level）的模型集成：将不同网络得到的深度特征抽出后级联作为最终特征，之后离线训练浅层分类器(如SVM),完成预测任务
- 不同网络结构：在不同网络架构上训练模型，最后将不同网络架构结果做以集成