迁移学习：Transfer-Learning

最新推荐文章于 2022-06-20 17:44:33 发布

Csuriwolf

最新推荐文章于 2022-06-20 17:44:33 发布

阅读量959

点赞数

分类专栏：深度学习文章标签：神经网络迁移学习

本文链接：https://blog.csdn.net/Csuriwolf/article/details/79705499

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

http://cs231n.github.io/transfer-learning/

迁移学习（Transfer Learning）

在实践中，很少有人从头开始（from scratch）（随机初始化）来训练整个卷积网络，因为拥有足够大小的数据集是比较少见的。相反，常见做法是先在一个非常大的数据集上（例如ImageNet，包含了120万个千种类别的图像）预训练一个卷积神经网络，然后使用该卷积网络作为初始化网络或者一个固定的特征提取器用于目标任务。三个主要的转移学习场景如下：

ConvNet as fixed feature extractor.

取一个在ImageNet上预训练过的卷积神经网络，移除最后一个全连接层（这层的输出是一个类似ImageNet的任务的1000类别的分数，），然后将余下的卷积神经网络作为一个固定的特征提取器来处理新的数据集。在一个AlexNet中，特征提取器会在分类器之前为每个图片计算一个4096-D的向量，包含隐藏层的激活值。我们把这些特征称为CNN codes。对于性能来说很重要的是，these codes are ReLUd (i.e. thresholded at zero) if they were also thresholded during the training of the ConvNet on ImageNet (as is usually the case)。一旦为所有图像提取了4096-D codes，就可以为新数据集训练线性分类器（如线性SVM或Softmax分类器）。

Fine-tuning the ConvNet.

第二种策略是不仅在新数据集上替换和重新训练卷积神经网络顶层的分类器，还通过继续反向传播来调整预训练网络的权重。可以对“卷积神经网络”的所有层进行微调，也可以保留一些较低的层（由于过拟合），只对网络的一些高层部分进行微调。这是出于观察发现，ConvNet前面层的特征包含更通用的特征(如edge detectors or color blob detectors)，对很多任务都会有用，但ConvNet后面的层会逐渐更关注于原始数据集中不同类别间的细节。例如，在包含许多犬种的ImageNet中，卷积神经网络的表达能力的很大一部分可能会用于区分不同的犬种。

Pretrained models.

由于现代的卷积神经网络在ImageNet上训练，使用多个gpu也需要2-3周的时间，有些人会发布他们最终的ConvNet checkpoints，以便其他人能够对网络进行微调。例如，Caffe library有人们分享网络权重的Model Zoo。

When and how to fine-tune?

在一个新数据集上应该使用哪一种迁移学习？需要考虑多种因素，但最重要的只有两个：新数据集的大小、新数据和原始数据集的相似程度。有牢记的是：ConvNet前几层学到的是更通用的特征，后面几层学到的特征是more original-dataset-specific。以下是选择四个场景常用的规则：
1、新数据集比较小且和原数据集相似。因为新数据集比较小，如果fine-tune ConvNet可能会过拟合；又因为新旧数据集类似，我们认为ConvNet高层的特征也是相关的，因此，使用预训练网络当做特征提取器（feature extractor），用CNN codes训练线性分类器。
2、新数据集大且和原数据集相似。因为新数据集足够大，可以fine-tune整个网络而不会产生过拟合。
3、新数据集小且和原数据集非常不相似。新数据集小，最好只训练一个线性分类器；因为数据集非常不相似，最好也不使用与数据集更相关的高层特征训练分类器。这时可使用前面层的特征来训练SVM分类器。
4、新数据集大且和原数据集非常不相似。因为新数据集足够大，我们认为可以从新训练ConvNet。但是实践中证明，用预训练的模型初始化权重是很有效的，因为，fine-tune整个网络。

实践建议

• 预训练模型的限制。使用预训练模型，会受限于其网络架构。例如，你不能随意从预训练模型去除卷积层。但是，因为参数共享，可以在任意大小图像上运行预训练网络；卷积层和池化层的前向函数独立于输入数据的大小（只要步长stride ‘fit’）；全连接层对输入大小没有要求，输出大小固定。
• 学习率。与重新训练相比，fine-tune要使用更小的学习率。因为训练好的网络模型权重已经平滑，我们不希望太快扭曲（distort）它们（尤其是当随机初始化线性分类器来分类预训练模型提取的特征时）。