cs231_n7.3_迁移学习

最新推荐文章于 2021-11-11 21:02:45 发布

jk英菲尼迪

最新推荐文章于 2021-11-11 21:02:45 发布

阅读量219

点赞数

分类专栏：斯坦福_CS231

原文链接：http://blog.itpub.net/29829936/viewspace-2641919/

版权

12 篇文章 3 订阅

订阅专栏

1. 迁移学习(Transfer learning) 顾名思义就是把已训练好的模型参数迁移到新的模型来帮助新模型训练。

2. 深度学习的模型可以划分为训练和预测两个阶段。

训练分为两种策略：一种是白手起家从头搭建模型进行训练，一种是通过预训练模型进行训练。

预测相对简单，直接用已经训练好的模型对数据集进行预测即可。

3. 迁移学习有几种方式

1）Transfer Learning ：冻结预训练模型的全部卷积层，只训练自己定制的全连接层。

2）Extract Feature Vector ：先计算出预训练模型的卷积层对所有训练和测试数据的特征向量，然后抛开预训练模型，只训练自己定制的简配版全连接网络。

3）Fine-tune ：冻结预训练模型的部分卷积层（通常是靠近输入的多数卷积层），训练剩下的卷积层（通常是靠近输出的部分卷积层）和全连接层。

第一种和第二种训练得到的模型本质上并没有什么区别,拿到新数据集，想要用预训练模型处理的时候，通常都会先用上面方法一或者方法二来看看预训练模型在新数据上的表现怎么样，摸个底。如果表现不错，还想看看能不能进一步提升，就可以试试Fine-tune，进一步解锁卷积层以继续训练模型。

4. 不同数据集下使用微调

数据集1
数据量少，但数据相似度非常高
在这种情况下，我们所做的只是修改最后几层或最终的softmax图层的输出类别。
数据集2
数据量少，数据相似度低
在这种情况下，我们可以冻结预训练模型的初始层（比如k层），并再次训练剩余的（n-k）层。由于新数据集的相似度较低，因此根据新数据集对较高层进行重新训练具有重要意义。
数据集3
数据量大，数据相似度低
在这种情况下，由于我们有一个大的数据集，我们的神经网络训练将会很有效。但是，由于我们的数据与用于训练我们的预训练模型的数据相比有很大不同。使用预训练模型进行的预测不会有效。因此，最好根据你的数据从头开始训练神经网络（Training from scatch）。
数据集4
数据量大，数据相似度高
这是理想情况。在这种情况下，预训练模型应该是最有效的。使用模型的最好方法是保留模型的体系结构和模型的初始权重。然后，我们可以使用在预先训练的模型中的权重来重新训练该模型。

5. 微调的注意事项

1）通常的做法是截断预先训练好的网络的最后一层（softmax层），并用与我们自己的问题相关的新的softmax层替换它。

2）使用较小的学习率来训练网络。

3）如果数据集数量过少，我们进来只训练最后一层，如果数据集数量中等，冻结预训练网络的前几层的权重也是一种常见做法。

6. 卷积神经网络的核心是：

1）浅层卷积层提取基础特征，比如边缘，轮廓等基础特征。

2）深层卷积层提取抽象特征，比如整个脸型。

3）全连接层根据特征组合进行评分分类。

7. 多重预训练视觉模型的迁移学习

和上面的方法二类似，只是我们现在拥有多个预训练模型，采用特征提取方法，使用堆叠技术将不同的预训练模型的特征组合在一起去训练。使用多个预训练模型后，与使用一个特征集的情况相同：它们希望提供一些不重叠的信息，从而使组合时性能更优越。

关注