Lecture 5 Sequence to sequence

Yi_cAt

已于 2022-10-04 09:52:40 修改

阅读量141

点赞数

分类专栏： 2022 Spring 李宏毅ML 文章标签：深度学习人工智能神经网络

于 2022-09-29 16:26:42 首次发布

本文链接：https://blog.csdn.net/Yi_cAt/article/details/127109311

版权

2022 Spring 李宏毅ML 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Lecture 5: Sequence to sequence

文章目录

Quick Introduction of Batch Normalization

Quick Introduction of Batch Normalization

Changing Landscape

我们认为 $\text{error surface}$ 较为崎岖的时候，模型较难训练 —— batch normalization 的想法是“将山铲平”。

如下图所示，在 $w_1$ 方向上斜率较小，而在 $w_2$ 方向上斜率较大，这时候模型较难训练，往往需要 $\text{adaptive learning rate}$ 或 $\text{Adam}$ 的帮助；而本文主要关注于更改 $\text{error surface}$ 的做法。

如下图所示，有一个较为简单模型。那么，该模型在什么情况下会出现上述模型不好训练的情况？

如下图所示，当我们仅改变 $w_1$ ，且输入 $x_1$ 的值较小时，对 $y,\ e,\ L$ 的改变都是小的。

如上图所示，而当我们同时改变 $w_2$ ，且输入 $x_2$ 的值较大时，对 $y,\ e,\ L$ 的改变都是大的。也就是，在线性模型中，当不同维度的输入规模差距较大时，会出现上述模型不好训练的情况。—— 一个很直观想法：让不同维度的输入处在同一数值范围。

Feature Normalization

Considering Deep Learning

在各个特征 $x$ 输入到网络之前，需要进行 $\text{feature normalization}$ 得到 $\tilde x$ 。同样，在输入到更深层网络之间的输出往往也需要 $\text{normalization}$ （如果激活函数 $s i g m o i d$ ，那么往往在其前进行 $\text{normalization}$ ）。那么如何对 $z$ 做 $\text{normalization}$ 呢？