在小图像数据集上使用预训练模型

最新推荐文章于 2025-03-17 14:09:50 发布

Fang Suk

最新推荐文章于 2025-03-17 14:09:50 发布

阅读量3.4k

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MrR1ght/article/details/99860755

版权

深度学习专栏收录该内容

33 篇文章

订阅专栏

在小的图像数据集进行深度学习任务，一个高效的方式是利用预先训练好的模型

一为什么预训练的模型可以用于其他任务

如果用于预训练模型的数据集足够大，且足够普通，那么在此数据集上训练好的模型学习到的空间层次特征可作为通用模型使用，其学习到的特征对其他许多不同的计算机视觉任务都是有用的。

深度学习的一个优点就是不同问题学习特征的可移植性。这一特征使得深度学习对于小数据集的任务也依然非常有效。

二预训练模型的使用

有两种使用预训练模型的方式：特征提取（feature extraction）和微调（fine turning）

1、feature extraction 特征提取

这种方式把训练好的模型当做一个特征提取器，不会去微调预训练模型的参数，然后在根据提起的特征训练后面的自定义的模型。

特征提取的也有两个常用的方法：

1）用预训练的模型提取训练图像的特征，并以numpy的形式保存到磁盘上。之后在读取提取的特征训练后面的全连接分类器。

优点：速度快，每张图像只在预训练模型前向传播一次。

缺点：不能做数据增强Image data argumentation

2）在预训练模型的底层卷积层后接全连接层，并冻结底层卷积层训练模型。

优点：可做实时的数据增强Image data argumentation

缺点：速度慢很多

2、fine turning微调

微调时只能微调底层卷积的顶层，例如冻结vgg16的block1,block2,block3,block4。只微调block5中卷积层。因为如果后接的全连接分类器尚未被训练，那么训练期间的误差信号会很大。参数更新的幅度也打，会破坏预训练模型中神经元先前的特征表示。为此使用以下的步骤进行微调fine turning。

在预训练模型的卷积层后接新的全连接层
冻结属于预训练模型中的网络层，
只训练后新接的网络层
解冻底预训练模型中部分卷积层
再次训练，解冻的卷积层和后接的全连接层一起训练

只解冻部分卷积层，而不训练整个卷积层有以下两点原因：

1）卷积层前几层的特征更加低级，通用，可移植性更强。较高层的特征更加的抽象。高层的抽象特征通常对应着特定的任务，重新训练高层抽象特征有助于解决当前的任务。而重新训练底层特征的意义不大。

2）训练的参数越大，过拟合的风险就越大。在小图像数据集，减小过拟合风险非常重要。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。