对于Batch Normalization的一点理解

怪兽不吃人

已于 2024-01-11 06:26:57 修改

阅读量467

点赞数 10

文章标签： batch 开发语言

于 2024-01-09 19:31:23 首次发布

本文链接：https://blog.csdn.net/qq_54406261/article/details/135488058

版权

【深度学习李宏毅】 Batch Normalization （中文）_哔哩哔哩_bilibili

Batch Normalization_哔哩哔哩_bilibili

我们可以看到这里由于x1与x2的巨大分布差异性导致w1和w2对于loss的影响是不同的，loss对于w2的导数较大，对于w1的导数较小，这就导致了如果想要loss往最快的方向减小，w1和w2需要调整的的大小差距也过大，但是learn rate一般都是一样的，所以为了解决这个问题，我们需要将输入调整到尽量相似的分布，此外下图也比较有道理

Batch Normalization原理_batch nomalization的基本原理是什么?以理解的方式介绍大概步骤,与layemorm区-CSDN博客

Batch Normalization_哔哩哔哩_bilibili

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

怪兽不吃人

关注关注

10
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
对于Batch Normalization的一点理解

我们可以看到这里由于x1与x2的巨大分布差异性导致w1和w2对于loss的影响是不同的，loss对于w2的导数较大，对于w1的导数较小，这就导致了如果想要loss往最快的方向减小，w1和w2需要调整的的大小差距也过大，但是learn rate一般都是一样的，所以为了解决这个问题，我们需要将输入调整到尽量相似的分布，此外下图也比较有道理。
复制链接

扫一扫