torch.nn.init细节

最新推荐文章于 2024-04-08 14:57:02 发布

再戳天花板我可生气了

最新推荐文章于 2024-04-08 14:57:02 发布

阅读量357

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39718268/article/details/105213665

版权

本文详细介绍了PyTorch中torch.nn.init模块的初始化细节，特别是xavier_uniform和kaiming_uniform的区别和使用场景。默认情况下，torch对卷积层的初始化考虑的是Leaky-ReLU而非ReLU，这导致了实际初始化与预期的不同。文中还探讨了如何针对ReLU进行正确的初始化设置。

摘要由CSDN通过智能技术生成

torch.nn.init细节

毕业论文进度0/50。大晚上挂着下骑砍2想顺便写论文的，内心太抗拒没办法，在这把以前看到的一些torch里的细节记录一下吧。

Abstract

torch默认的卷积初始化针对的激活函是 $slope=\sqrt{5}$ 的leaky-relu，而不是relu。

常见init的种类

平时能用到的卷积的初始化一般涉及到两个名字：xavier,kaiming.两者都是基于对数据张量的variance的传播推导得出的，不同点在于kaiming的推导里考虑到了激活函数的作用。
以ReLU为例， $R e L U (x)$ 会将 $x$ 的负元素置0。假设x为正态分布或者均匀分布等具有对称性的分布时，ReLU正好将一半的元素置零，再经过卷积 $\xi$ 的传播，我们有 $var(\xi(ReLU(x)))=\frac{1}{2}var(\xi(x))$ .右边是xavier初始化考虑的情形。所以kaiming初始化需要在xavier初始化的基础上scale一个2.
具体的细节推导网上有很多，这里不多描述。

xavier_uniform

和torch里的代码略有不同，至少我本人从原文里看到的实现应该是：
$a=\sqrt{\frac{6}{f_{in}+f_{out}}}$

最低0.47元/天解锁文章

再戳天花板我可生气了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

再戳天花板我可生气了 CSDN认证博客专家 CSDN认证企业博客

码龄7年

4: 原创

29万+: 周排名

195万+: 总排名

1万+: 访问

: 等级

200: 积分

1: 粉丝

28: 获赞

12: 评论

68: 收藏

私信

关注

热门文章

分类专栏

SLAM 1篇
李代数 1篇
深度学习 2篇

最新评论

pytorch单机多卡：从DataParallel到distributedDataParallel
AI吃大瓜: 可以试试这个《Pytorch-Base-Trainer(PBT)分布式训练工具》：https://panjinquan.blog.csdn.net/article/details/122702287
pytorch单机多卡：从DataParallel到distributedDataParallel
再戳天花板我可生气了: 单卡batchsize8 和多卡batchsize8没区别的，我感觉你的问题本质上是怎么在单卡上用batchsize8复习batchsize1的结果。一般做法是把lr也扩大相同倍数、然后epoch不变，但是实际上也不是复现，只是在优化的角度上，两个操作比较类似
pytorch单机多卡：从DataParallel到distributedDataParallel
iiiiiiimp: 那怎样才能接近呢？比如说把lr调成单卡的八倍行吗？
pytorch单机多卡：从DataParallel到distributedDataParallel
再戳天花板我可生气了: 理论上不能够复现
pytorch单机多卡：从DataParallel到distributedDataParallel
iiiiiiimp: 请问，如果单卡batchsize就为1，epoch为200，lr为0.0002，那么8卡怎么调参才能复现单卡的效果呢？

大家在看

Python库matplotlib之六 488

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。