pytorch迁移学习中parameters requires_grad=False和optimizer优化参数的探讨

最新推荐文章于 2023-03-15 16:10:06 发布

今晚打老虎

最新推荐文章于 2023-03-15 16:10:06 发布

阅读量1.8k

点赞数 2

分类专栏：深度学习点滴

原文链接：https://blog.csdn.net/york1996/article/details/83019978

版权

深度学习点滴专栏收录该内容

43 篇文章 3 订阅

订阅专栏

首先背景是迁移学习，以VGG16网络为例，固定他的特征提取层，优化他的全连接分类层。

有的书上写了：

for param in vgg.features.parameters():
 
    param.requeires_grad=False

然后在定义优化器的时候，又写了下面的代码：

optimizer=optim.SGD(vgg.classifier.paramters(),lr=0.001)

这样的代码虽然可以运行，但是让人很疑惑。

首先第一句代码的作用是：特征层中参数都固定住，不会发生梯度的更新；第二句代码的作用是定义一个优化器，这个优化器的作用是优化全连接层中的参数，并没有说要优化特征层中的参数。那么这里自然会让人想到，为什么两个代码要一起用呢？下面的优化器参数是网络所有参数运行起来会有什么变化吗？或者去掉上面的代码，理应也是可以正常运行的，因为并没有要改变特征层的参数。

这样的书，很容易误导人，让人以为，这两行代码都是必须写代码才可以运行的。因此我做了一些实验验证了自己的想法。

只写第一句那么，特征层不会产生梯度，但是梯度会在其中传播。也就是说如果，你对第二层限制求梯度，那么第二层不会产生改变量（梯度*学习率），但是第一层会产生梯度，也可以进行改变。

只写第二句，梯度正常产生，但是由于优化器没有涉及特征层的参数，所以特征层虽然产生了梯度，但是参数却不会改变。

但是，由一位网友的提示，required_grad这一句是确定是否计算导数的。所以有第一句可以减少计算量，也就是不用求w和b的导数了，减少了计算量。只传播误差，而不计算权重和偏执的导数。

今晚打老虎

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
pytorch迁移学习中parameters requires_grad=False和optimizer优化参数的探讨

首先背景是迁移学习，以VGG16网络为例，固定他的特征提取层，优化他的全连接分类层。有的书上写了：for param in vgg.features.parameters(): param.requeires_grad=False然后在定义优化器的时候，又写了下面的代码：optimizer=optim.SGD(vgg.classifier.paramters(),...
复制链接

扫一扫

专栏目录

今晚打老虎 CSDN认证博客专家 CSDN认证企业博客

码龄9年

282: 原创

4万+: 周排名

200万+: 总排名

37万+: 访问

: 等级

5778: 积分

131: 粉丝

392: 获赞

108: 评论

1093: 收藏

私信

关注

热门文章

分类专栏

最新评论

pytorch加载预训练权重时的错误 urlopen error [Errno -3] Temporary failure in name resolution
今天不要敲代码: 没有权限怎么办呀，还有其他方法吗
Github下载慢和下载过程中断等情况的解决方案
DarrenPig: 如果说仓库过大，需要升级企业呢。。。
GAN公式推导详解
裴自力367: Pg(x)=Pz(G-1(x))（G-1）’（x）请问这是怎么得到的
Python中List的复制（直接复制、浅拷贝、深拷贝）
H游离态H: [code=python] for i in range(len(old)): new.append(old[i]) [/code] 这样写也和浅拷贝差不多了，也是一个一个赋值过去。重点在于append的内容是否是列表等可变的东西，是的话就会出现类似问题，但是直接append一个值是没问题的是否可以类比为 C 里面的指针指向和 memcopy 的区别
Python中List的复制（直接复制、浅拷贝、深拷贝）
H游离态H: 是的，直接赋值的例子应该类似下面： [/code][code=python] list_origin = [1,2,3,4,5] list_after = [] for i in range(0,2): list_after.append([]) list_after[i] += list_origin print("list_after:", list_after) list_origin[0] = 100 print("change list_origin, list_after:", list_after, end= "\n\n") list_origin = [1,2,3,4,5] list_after = [] for i in range(0,2): list_after.append(list_origin) print("list_after:", list_after) list_origin[0] = 100 print("change list_origin, list_after:", list_after, end= "\n\n") list_after[0][0] = 123 print("set list_after[0][0] = 123:", list_after) print("list_origin:", list_origin, end= "\n\n") list_after[0].clear() print("clear list_after[0]:", list_after) print("list_origin:", list_origin, end= "\n\n") [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。