模型微调（fine-tuning）

最新推荐文章于 2024-08-05 20:02:42 发布

落难Coder

最新推荐文章于 2024-08-05 20:02:42 发布

阅读量2.4k

点赞数 1

分类专栏： AI不可错过的知识点文章标签：深度学习神经网络迁移学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014297502/article/details/125884235

版权

AI不可错过的知识点专栏收录该内容

30 篇文章 7 订阅

订阅专栏

特征提取

微调首先要弄清楚一个概念：特征提取。
用于图像分类的卷积神经网络包括两部分：一系列的卷积层和池化层（卷积基） + 一个密集连接分类器。对于卷积神经网络而言，特征提取就是取出之前训练好的网络的卷积基，用新数据训练一个新的分类器。那么为什么要重复使用之前的卷积基，而要训练新的分类器呢？这是因为卷积基学到的东西更加通用，而分类器学到的东西则针对于模型训练的输出类别，并且密集连接层舍弃了空间信息。
卷积基的通用性取决于该层在模型中的深度。模型中更靠近输入的层提取的特征更通用，更靠近输出的层提取的特征更抽象。
在特征提取时，应冻结卷积基，不对其进行训练，即训练过程中不改变卷积基的权重，只训练最后的dense层。在keras中，冻结方法为将卷积基每层的trainable属性设为False。

模型微调

模型微调与特征提取互为补充。对于用于特征提取的冻结的卷积基，微调是指将其靠近输出的几层解冻，并将这几层与分类器联合训练，让模型更加适用于当前要解决的问题。在keras中，解冻即将对应层的trainable属性设为True。

微调网络的步骤

在已经训练好的base network上添加自定义网络
冻结基网络
训练所添加的部分
解冻基网络的一些层
联合训练解冻的层和新添加的部分

总结

微调，就是基于预训练模型进行微调，比如用大型数据集Imagenet训练好的resnet，再在自己的数据集上训练一部分靠近输出的层，使之更加适用于自己的问题。

需要微调的情况：

预训练模型的数据集与自己的数据集相似，但自己的数据集太少
计算资源不够

是否微调以及微调的方法要根据自己的数据集大小、数据集与预训练模型数据集的相似程度来选择。

不同情况下的微调：

数据量少，相似度高：修改最后几层；
数据量少，相似度低：保留预训练模型的前几层，训练后面的层；
数据量大，相似度高：这是最理想的情况。使用预训练的权重初始化模型，重新训练整个模型；
数据量大，相似度低：直接重新训练整个模型。

参考

[1]《Python深度学习》
[2] 知乎（如何进行模型微调）

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
模型微调（fine-tuning）

微调，就是基于预训练模型进行微调，比如用大型数据集Imagenet训练好的resnet，再在自己的数据集上训练一部分靠近输出的层，使之更加适用于自己的问题。预训练模型的数据集与自己的数据集相似，但自己的数据集太少计算资源不够是否微调以及微调的方法要根据自己的数据集大小、数据集与预训练模型数据集的相似程度来选择。数据量少，相似度高修改最后几层；数据量少，相似度低保留预训练模型的前几层，训练后面的层；数据量大，相似度高这是最理想的情况。使用预训练的权重初始化模型，重新训练整个模型；...
复制链接

扫一扫

专栏目录

落难Coder CSDN认证博客专家 CSDN认证企业博客

码龄10年

深度学习领域新星创作者

305: 原创

6785: 周排名

6670: 总排名

55万+: 访问

: 等级

4088: 积分

9403: 粉丝

582: 获赞

203: 评论

3319: 收藏

私信

关注

热门文章

分类专栏

YOLOV5 付费 21篇
LLMs 15篇
NLP 6篇
模型部署 1篇
BestYOLO 10篇
图像配准 6篇
Python 26篇
不可不知 35篇
深度学习 12篇
问题解决 1篇
偏爱小技巧 38篇
竞赛之神 30篇
Linux 13篇
AI不可错过的知识点 30篇
源码 15篇
数据结构Code 7篇
C/C++ 2篇
飞桨 6篇
AI开发的从0到1 9篇
机器学习 25篇
GIt 10篇
Windows 11篇

最新评论

Latex空行消除大杀器（该方法价值一万块）
doraJmon3: 赚了伊碗筷！谢谢老哥！
【源码】YOLOv5检测GUI界面（带登录）
tpfroms5: https://blog.csdn.net/wrh975373911/article/details/119322059?ops_request_misc=%257B%2522request%255Fid%2522%253A%252200E0BD7D-11C3-4F80-8DD6-7D884DE57523%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=00E0BD7D-11C3-4F80-8DD6-7D884DE57523&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-2-119322059-null-null.142^v100^pc_search_result_base3&utm_term=yolov5%20detect%E6%B7%BB%E5%8A%A0ui%E7%95%8C%E9%9D%A2&spm=1018.2226.3001.4187
使用Ollama从头构建Embedding和RAG系统
飒馍噎: 请问需要先启动ollama在托盘吗
Github Pro申请
m0_52848925: 学生包过期了这个highlight PRO会消失吗？
Meta的LLama模型非官方下载方法
路过的研究生: 请问，这是llama1的权重么？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

落难Coder 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。