pytorch深度学习和入门实战（五）如何进行fine-tuning

最新推荐文章于 2024-06-27 16:56:48 发布

AI扩展坞

最新推荐文章于 2024-06-27 16:56:48 发布

阅读量3.8k

点赞数 14

分类专栏： pytorch入门到熟练文章标签： pytorch 深度学习机器学习人工智能神经网络

本文链接：https://blog.csdn.net/weixin_42237113/article/details/108969592

版权

pytorch入门到熟练专栏收录该内容

13 篇文章 12 订阅

订阅专栏

1.基本内容

1.1.什么是fine-tuning？

在实践中，由于数据集不够大，很少有人从头开始训练网络。常见的做法是使用预训练的网络（例如在ImageNet上训练的分类1000类的网络）来重新fine-tuning（也叫微调），或者当做特征提取器。

以下是常见的两类迁移学习场景：

1）卷积网络当做特征提取器。使用在ImageNet上预训练的网络，去掉最后的全连接层，剩余部分当做特征提取器（例如AlexNet在最后分类器前，是4096维的特征向量）。这样提取的特征叫做CNN codes。得到这样的特征后，可以使用线性分类器（Liner SVM、Softmax等）来分类图像。

2 ）Fine-tuning卷积网络。替换掉网络的输入层（数据），使用新的数据继续训练。Fine-tune时可以选择fine-tune全部层或部分层。通常，前面的层提取的是图像的通用特征（generic features）（例如边缘检测，色彩检测），这些特征对许多任务都有用。后面的层提取的是与特定类别有关的特征，因此fine-tune时常常只需要Fine-tuning后面的层。

预训练模型

在ImageNet上训练一个网络，即使使用多GPU也要花费很长时间。因此人们通常共享他们预训练好的网络，这样有利于其他人再去使用。例如，Caffe有预训练好的网络地址Model Zoo。

1.2.何时使用Fine-tune、如何使用？

决定如何使用迁移学习的因素有很多，这是最重要的只有两个：新数据集的大小、以及新数据和原数据集的相似程度。有一点一定记住：网络前几层学到的是通用特征，后面几层学到的是与类别相关的特征。这里有使用的四个场景：

1、新数据集比较小且和原数据集相似。因为新数据集比较小，如果fine-tune可能会过拟合；又因为新旧数据集类似，我们期望他们高层特征类似，可以使用预训练网络当做特征提取器，用提取的特征训练线性分类器。

2、新数据集大且和原数据集相似。因为新数据集足够大，可以fine-tune整个网络。

3、新数据集小且和原数据集不相似。新数据集小，最好不要fine-tune，和原数据集不类似，最好也不使用高层特征。这时可是使用前面层的特征来训练SVM分类器。

4、新数据集大且和原数据集不相似。因为新数据集足够大，可以重新训练。但是实践中fine-tune预训练模型还是有益的。新数据集足够大，可以fine-tine整个网络。

1.3 实践建议

预训练模型的限制。使用预训练模型，受限于其网络架构。例如，你不能随意从预训练模型取出卷积层。但是因为参数共享，可以输入任意大小图像；卷积层和池化层对输入数据大小没有要求（只要步长stride fit），其输出大小和属于大小相关；全连接层对输入大小没有要求，输出大小固定。

学习率。与重新训练相比，fine-tune要使用更小的学习率。因为训练好的网络模型权重已经平滑，我们不希望太快扭曲（distort）它们（尤其是当随机初始化线性分类器来分类预训练模型提取的特征时）。

2.基本过程

以下以resnet网络为例，详解如何构建分类网络模型：
1 选择pytorch中已有model和预训练weight的模型。
2 观察模型最后full connect layer or classifaction layer 情况（一般都是以imagenet比赛的weight，所以模型class num = 1000）
3 构建自己的fc层，修改成自己分类的数据
4 一般训练的时候，采用pretrained=True, 下载、并利用已有的已训练好的模型weight
5 可以先让backbone的部分不训练，只训练最后的top layer（fc 层）.，先进行一个粗略的训练。
6 在保存了新训练的weight后，再降权重全部编程trainable。load新的权重进行，全部layer的训练，从而提高自己的准确率

3.pytorch提供哪些model

参见官网
对于分类模型来说，主要有以下几种：（pytorch=1.6.0）
在这里插入图片描述
注意：

1.pytorch 不同版本之间提供的内容可能不一样
2.resnet只是一个大类，里面还有resnet18, resnet34, resnet152等不同的小类，具体情况需要核对一下。
3.有一些比较新的model是暂时没有 pretrained weight的，例如MNASNet
4. 不同模型的检测效果、体积大小也是各不相同，需要均衡考虑的。

4.基本代码

1 查看一下resnet152网络的fc层情况

from torchvision import  models

new_model = models.resnet152(pretrained=True)
print(new_model)

在这里插入图片描述
可以看到最后layer 是 fc layer, 并且 in_num = 2048, out_num=1000
我们为了让其更好的降维和训练你自己的分类，增加2个nn.Linear和1个drop，并替换到原来模型的fc layer。

2 详细代码

def model_define(fc_num=256, class_num=3, train_all =False):
	new_model = models.resnet152(pretrained=True)
	# 前面的backbone保持不变
	for param in new_model.parameters():
		param.requires_grad = False

	# 只是修改输出fc层，新加层是trainable
	fc_inputs = new_model.fc.in_features
	new_model.fc = nn.Sequential(
		nn.Linear(fc_inputs, fc_num),
		nn.ReLU(),
		nn.Dropout(0.4),
		nn.Linear(fc_num, class_num)
	)

	#  修改所有参数层
	if train_all:
		for param in new_model.parameters():
			param.requires_grad = True
		torch.load("./models/best_loss.pt")
	new_model = new_model.to(device)
	print("[INFO] Model Layer:  ", summary(new_model, (3, 224, 224)))
	return new_model

修改class_num等于你需要分类的数目就可以了。
另外，这边train_all=False 时候，只是训练fc layer, 并且保存权重为best_loss.pt；
train_all=True的时候，加载best_loss.pt,并且放开所有layer进行训练，提高精读。

AI扩展坞

关注

14
点赞
踩
31

收藏

觉得还不错? 一键收藏
打赏
4
评论
pytorch深度学习和入门实战（五）如何进行fine-tuning

目录基本内容1.什么是fine-tuning？以下是常见的两类迁移学习场景：预训练模型2.何时使用Fine-tune、如何使用？3 实践建议基本过程pytorch提供哪些model基本代码基本内容1.什么是fine-tuning？在实践中，由于数据集不够大，很少有人从头开始训练网络。常见的做法是使用预训练的网络（例如在ImageNet上训练的分类1000类的网络）来重新fine-tuning（也叫微调），或者当做特征提取器。以下是常见的两类迁移学习场景：1）卷积网络当做特征提取器。使用在Imag
复制链接

扫一扫