【论文笔记】SpotTune: Transfer Learning through Adaptive Fine-tuning

最新推荐文章于 2023-04-30 22:46:43 发布

置顶

碧海蓝天go星辰大海

最新推荐文章于 2023-04-30 22:46:43 发布

阅读量3.2k

点赞数 3

分类专栏：论文笔记文章标签：迁移学习 fine-tune cvpr2019 spottune

本文链接：https://blog.csdn.net/qq_35240640/article/details/89457122

版权

SpotTune是一种依赖输入的迁移学习微调方法，旨在为每个目标样本自动决定哪些层进行微调。通过Gumbel Softmax采样策略网络，SpotTune能在不同层之间做出finetune或freeze的决策，提高模型性能。实验表明，SpotTune在14个数据集中的12个超过了标准微调方法，并在Visual Decathlon Challenge上取得最佳成绩。

摘要由CSDN通过智能技术生成

【CVPR2019】SpotTune: Transfer Learning through Adaptive Fine-tuning

论文链接：SpotTune: Transfer Learning through Adaptive Fine-tuning

一. Introduction

使用深度学习模型时，微调(fine-tune)是应用最普遍的迁移学习方法。它具体指先在源任务上获得预训练模型，然后在目标任务上进一步训练它，从而，可以减少对目标标签数据需求的同时，提升模型的性能。

常用的微调方式有以下两种：第一个是使用目标数据集优化预训练模型中的所有参数，它的一大缺陷是，当目标数据集小且预训练网络的参数过大时，可能会产生过拟合；第二个是依据目标任务中训练集有限以及初始层学到的低级特征可以在多个任务间共享这一经验，选择微调深度网络的最后几层的参数，冻结前面其他层的参数，但是由于需要手动选择初始冻结层数，这不利于提升优化效率。并且，像ResNet这种由多个浅层网络集成的模型，初始层学到的低级特征可以共享这一前提不再适用，所以仅是微调模型的最后几层并不一定是最优的选择。

目前的方法也均是采用全局微调的策略，即，对目标任务中的所有样本采取（在某些网络层）freeze参数或者是fine-tune参数的决定。这就相当于假设该决定对整个目标数据分布是最优的，但是，现实往往并非如此。

例如，目标任务中的某些类与源任务之间的相似性较高，这些类的样本可能倾向于finetune较少的预训练参数，与之相反的样本则希望能finetune更多的预训练参数，以达最好的准确率。

所以，理想的情况是，为目标任务中的每一样本，在每一层，都制定一个该finetune还是该freeze参数的决策。

就如图1所示，上面的是在源任务上得到预训练模型，下面，在目标任务中，有两个猫的训练样本，第一个猫样本在前两块选择冻结参数，也就是保留预训练模型原有的参数，后两块做了微调，而第二个猫样本在第一三块选择了微调，在二四块选择冻结参数。而这样的选择对他们来说是达到了最优的微调策略。