pre-norm 和 post-norm 的区别

最新推荐文章于 2024-02-01 16:30:52 发布

小ccccc

最新推荐文章于 2024-02-01 16:30:52 发布

阅读量1.2k

点赞数

文章标签：深度学习人工智能

原文链接：https://www.zhihu.com/question/519668254/answer/2371885202

版权

之前关注过 pre-norm 和 post-norm 的区别，这篇文章中的 deepnorm 进一步发扬了这一点。

pre-norm xn+1=xn+f(norm(xn))x_{n+1} = x_n + f(norm(x_n)) 其中第二项的方差由于有 norm 是不随层数变化的，于是 x 的方差会在主干上随层数积累。到了深层以后，单层对主干的影响可以视为小量，而不同层的 f 统计上是相似的，于是有 xn+2=xn+1+f(norm(xn+1))=xn+f(norm(xn))+f(norm(xn+1))≈xn+2f(norm(xn))x_{n+2} = x_{n+1} + f(norm(x_{n+1})) = x_n + f(norm(x_n)) + f(norm(x_{n+1})) \approx x_n + 2f(norm(x_n)) 。这样训练出来的深层 ResNet or Transformer，深层部分实际上更像扩展了模型宽度，所以相对好训练，但某种意义上并不是真正的 deep.

post-norm xn+1=norm(xn+f(xn))x_{n+1} = norm(x_n + f(x_n)) 则保证了主干方差恒定，每层对 x 都可能有较大影响，代价则是模型结构中没有从头到尾的恒等路径，梯度难以控制。通常认为会更难收敛，但训练出来的效果更好。

本文中的 deep-norm xn+1=norm(αxn+f(xn))(α>1)x_{n+1} = norm(\alpha x_n + f(x_n)) (\alpha > 1) 通过控制参数起到了一个折中的效果。

作者：唐翔昊
链接：https://www.zhihu.com/question/519668254/answer/2371885202
来源：知乎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pre-norm 和 post-norm 的区别

之前关注过 pre-norm 和 post-norm 的区别，这篇文章中的 deepnorm 进一步发扬了这一点。
复制链接

扫一扫

博客等级

码龄6年

16
原创

42
点赞

122
收藏

9
粉丝

关注

私信

热门文章

最新评论

深度学习中训练集需要数据增强，验证集和测试集不需要做数据增强
2301_80422860: 博主你好，如果我使用随机贴图的方式将已标注的目标抠出来随机贴在我的数据集图片中（同一张抠图可能会出现在不同图片上）（就是目标的背景会不一样），然后再划分训练集和验证集，这样会导致验证的结果虚高吗
深度学习中训练集需要数据增强，验证集和测试集不需要做数据增强
俺很酷！: 一开始把数据分为训练集和测试集，这时候训练集和测试集是可以保证同分布的，但如果数据增强手段不符合实际情况，破坏了原训练集分布，这时测试集准确率反而会下降。数据增强的本质是人工提供先验知识，可以多尝试几种增强手段。测试集如答主一样，不要变动。
深度学习中训练集需要数据增强，验证集和测试集不需要做数据增强
小ccccc: 保持不变
深度学习中训练集需要数据增强，验证集和测试集不需要做数据增强
萌萌呆呆鼠: 博主，请问，假如我将训练集增强后，测试集是保持不变的。那么得到的训练集的数量增加了，那么此时我的验证集是保持不变还是需要将增强后得到的新训练集的一部分作为验证集？
HOW DO VISION TRANSFORMERS WORK 总结
CSDN-Ada助手: 恭喜您写了第19篇博客！看了您的总结文章，对Vision Transformers的工作原理有了更深入的了解。建议您在下一步的创作中，可以尝试加入一些实际案例或者应用场景，以及对比不同方法的优缺点，这样可以使读者更加直观地理解和接受您的观点。希望您继续保持创作的热情，期待您更多精彩的文章！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。