cs231n'18： Course Note 4

最新推荐文章于 2023-05-29 11:21:45 发布

FortiLZ

最新推荐文章于 2023-05-29 11:21:45 发布

阅读量370

点赞数

本文链接：https://blog.csdn.net/FortiLZ/article/details/80837000

版权

cs231n 同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

Stanford cs231n'18 课程及作业详细解读

25 篇文章 27 订阅

订阅专栏

Backpropagation, Intuitions

Backprop和chain rule，就是用求解微分时的链式法则，将复杂算式的微分计算，一步步分解成小的node，然后用这些基本的node层层叠加，最后得到微分结果。通常做法是先画出computation graph，然后再stage by stage的计算grads，基本的公式是：

                 down_diff = local_diff * up_diff

其中up_diff是从上一层block传递下来的，local_diff要通过计算得到，并且和输入值有关，两者相乘传递给下一层的block。道理很简单，但是具体代码写起来会遇到各种问题，到时候再见招拆招吧。

Patterns in backward flow

add gate

up_diff不做任何改变均匀的传向两个分支。

max gate

up_diff传向输入值大的一个分支，另一个分支为0

multiply gate

up_diff与输入值相乘后传向另外一个分支。需要注意的是，这里有一个switch的动作，即一个分支的grad与另外一个分支的输入成正比。所以一个分支的输入如果过大的话，会导致另外一个分支的grad很大，造成梯度爆炸。

具体的，score = wx，x是training data，通常是已知的不变的，所以不会计算对x的grad，只计算对w的grad $\mathrm{d} w$ 。如果输入数据x很大的话，那么由于w和x要相乘，那么会造成 $\mathrm{d} w$ 很大，这样的后果就是，要么梯度会爆炸，要么要大大降低learning rate，使得学习变慢。所以我们要对原始的输入数据进行预处理，减去均值；同时这也是BN层会加速训练的原因之一。

sigmoid gate

d d x σ (x) = (1 - σ (x)) \cdot σ (x)

$\frac{\mathrm{d}}{\mathrm{d} x} \sigma(x)\ = \left( 1 - \sigma(x) \right) \cdot \sigma(x)$

Gradients for vectorized operations

这又是个头疼的地方，首先要记住的一点是，stage到score，不要妄图直接计算 $\mathrm{dW}$ , 先算 $\mathrm{dScore}$ ，然后通过 维度分析 来计算 $\mathrm{dW}$ 。例如，X是(N, D)，W是(D, C)，那么Score = X.dot(W)是(N, C)。根据 维度分析：

d W d X = X . T . d o t (d S c o r e) = d S c o r e . d o t (W . T)

$\begin{aligned} \mathrm{dW} &= X.T.\mathrm{dot} (\mathrm{dScore} ) \newline \mathrm{dX} &= \mathrm{d Score}.\mathrm{dot}(W.T) \end{aligned}$
这样可以省去很多麻烦。

如果实在避免不了计算对vector的grad，那么就要项note里说的，先写出对vector中每一项的grad，然后再去general成vector形式，这里常用到的公式是视频里板书的那个:

\partial f \partial X = \sum i \partial f \partial q i \cdot \partial q i \partial X ，

$\frac{\partial f}{\partial X} = \sum_i \frac{\partial f}{\partial q_i} \cdot \frac{\partial q_i}{\partial X}，$
这里要注意的是写代码时np.sum()要对哪个axis进行。

此处有作业

Assignment 1: two_layer_net

难点在于grads的计算，这里详细的把推导过程写写，然后总结出一套简单的算法，以后再用时直接用这套算法就行，省得再去想一遍推导过程。代码在neural_network里。

这个两层的NN是先经过(W1, b1)，然后ReLU一下，在经过(W2, b2)得到score，然后score再经过softmax，得到最后的Loss。它的forward很简单：

layer1_out = X.dot(W1) + b1
relu_out = np.maximum(0, layer1_out)
scores = relu_out.dot(W2) + b2

得到score后，再经过softmax得到Loss：

stable_scores = scores - np.max(scores, axis=1, keepdims=True)
correct_score = stable_scores[np.arange(N), y]

loss = -np.sum(np.log(np.exp(correct_score) / np.sum(np.exp(stable_scores), axis=1)))
loss = loss/N + reg * np.sum(W1 * W1) + reg * np.sum(W2 * W2)

下一步就是计算对W1, b1, W2, b2的grad了。

首先一定要牢记的是，上来不要妄图直接计算 $\mathrm{d} W$ 或者是 $\mathrm{d} b$ ，一定要先从XW+b的结果score下手。所以，这里先算Loss对score的grad，在softmax一节已经详细讲过了:

Dscores = np.exp(stable_scores) / np.sum(np.exp(stable_scores), axis=1, keepdims=True)
Dscores[np.arange(N), y] -= 1
Dscores = Dscores / N

需要注意的一个细节是最后一步的除以N，在这里除了的话，后面可以不用再除，以防后面计算的时候忘记。然后就要计算 $\mathrm{d} W2$ 和 $\mathrm{d} b2$ 。这里详细的讲一下Y = XW+b如何算grads。

Y = X.dot(W) + b梯度的计算

首先这里的已知量是(X, W, b, Y, dY = $\frac{\partial \mathrm{L}}{\partial y}$ )，要求出 $d\mathrm{W}$ 和 $\mathrm{d} b$ 。其中

y (N, C)形如：

⎡ ⎣ ⎢ ⎢ ⎢ y 11 y 21 y n 1 y 12 y 22 . . . y n 2 . . . . . . . . . . . . y 1 c y 2 c y n c ⎤ ⎦ ⎥ ⎥ ⎥

$\begin{bmatrix} y_{11}& y_{12}& ... & y_{1c}\newline y_{21}& y_{22}& ... & y_{2c}\newline & ... & ... & \newline y_{n1}& y_{n2}& ... & y_{nc} \end{bmatrix}$
X (N, D)形如：

⎡ ⎣ ⎢ ⎢ ⎢ x 11 x 21 x n 1 x 12 x 22 . . . x n 2 . . . . . . . . . . . . x 1 d x 2 d x n d ⎤ ⎦ ⎥ ⎥ ⎥

$\begin{bmatrix} x_{11}& x_{12}& ... & x_{1d}\newline x_{21}& x_{22}& ... & x_{2d}\newline & ... & ... & \newline x_{n1}& x_{n2}& ... & x_{nd} \end{bmatrix}$
W (D, C)形如

⎡ ⎣ ⎢ ⎢ ⎢ w 11 w 21 w d 1 w 12 w 22 . . . w d 2 . . . . . . . . . . . . w 1 c w 2 c w d c ⎤ ⎦ ⎥ ⎥ ⎥

$\begin{bmatrix} w_{11}& w_{12}& ... & w_{1c}\newline w_{21}& w_{22}& ... & w_{2c}\newline & ... & ... & \newline w_{d1}& w_{d2}& ... & w_{dc} \end{bmatrix}$
b (1, C)形如：

[b 1, b 2, . . ., b c]

$[b_1, b_2, ... , b_c]$
dY (N, C) 形如：

⎡ ⎣ ⎢ ⎢ ⎢ d y 11 d y 21 d y n 1 d y 12 d y 22 . . . d y n 2 . . . . . . . . . . . . d y 1 c d y 2 c d y n c ⎤ ⎦ ⎥ ⎥ ⎥

$\begin{bmatrix} \mathrm{d} y_{11}& \mathrm{d} y_{12}& ... & \mathrm{d} y_{1c} \newline \mathrm{d} y_{21}& \mathrm{d} y_{22}& ... & \mathrm{d} y_{2c}\newline & ... & ... & \newline \mathrm{d} y_{n1}& \mathrm{d} y_{n2}& ... & \mathrm{d} y_{nc} \end{bmatrix}$
Y = X.dot(W) + b形如：

⎡ ⎣ ⎢ ⎢ ⎢ y 11 y 21 y n 1 y 12 y 22 . . . y n 2 . . . . . . . . . . . . y 1 c y 2 c y n c ⎤ ⎦ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ x 11 x 21 x n 1 x 12 x 22 . . . x n 2 . . . . . . . . . . . . x 1 d x 2 d x n d ⎤ ⎦ ⎥ ⎥ ⎥ * ⎡ ⎣ ⎢ ⎢ ⎢ w 11 w 21 w d 1 w 12 w 22 . . . w d 2 . . . . . . . . . . . . w 1 c w 2 c w d c ⎤ ⎦ ⎥ ⎥ ⎥ + [b 1, b 2, . . ., b c]

$\begin{bmatrix} y_{11}& y_{12}& ... & y_{1c}\newline y_{21}& y_{22}& ... & y_{2c}\newline & ... & ... & \newline y_{n1}& y_{n2}& ... & y_{nc} \end{bmatrix} = \begin{bmatrix} x_{11}& x_{12}& ... & x_{1d}\newline x_{21}& x_{22}& ... & x_{2d}\newline & ... & ... & \newline x_{n1}& x_{n2}& ... & x_{nd} \end{bmatrix} * \begin{bmatrix} w_{11}& w_{12}& ... & w_{1c}\newline w_{21}& w_{22}& ... & w_{2c}\newline & ... & ... & \newline w_{d1}& w_{d2}& ... & w_{dc} \end{bmatrix} + [b_1, b_2, ... , b_c]$

$\mathrm{d} b$ 的推导

首先求 $\mathrm{d} b$ 的第一项 $\mathrm{d} b_1$ ：

d b 1 = \partial L \partial b 1 = \partial L \partial y \cdot \partial y \partial b 1 = \sum i \sum j \partial L \partial y i j \cdot \partial y i j \partial b 1

$\mathrm{d} b_1 = \frac{\partial \mathrm{L}}{\partial b_1} = \frac{\partial \mathrm{L}}{\partial y} \cdot \frac{\partial y}{\partial b_1} = \sum_i \sum_j \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial b_1}$
还记得视频中板书的那个公式么，在这里用到了。
将

yij y i j $y_{ij}$ 展开：

y 11 y 12 y i j = x 11 w 11 + x 12 w 21 + . . . + x 1 d w d 1 + b 1 = x 11 w 12 + x 12 w 22 + . . . + x 1 d w d 2 + b 2 . . . . . . = x i 1 w 1 j + x i 2 w 2 j + . . . + x i d w d j + b j

$\begin{aligned} y_{11} &= x_{11}w_{11} + x_{12}w_{21} + ... + x_{1d}w_{d1} + b_1 \newline y_{12} &= x_{11}w_{12} + x_{12}w_{22} + ... + x_{1d}w_{d2} + b_2 \newline &... ... \newline y_{ij} &= x_{i1}w_{1j} + x_{i2}w_{2j} + ... + x_{id}w_{dj} + b_j \end{aligned}$
由此可以看出，

b1 b 1 $b_1$ 仅与

yi1 y i 1 $y_{i1}$ 有关，同样，

bj b j $b_j$ 仅与

yij y i j $y_{ij}$ 有关，并且

∂yij∂bj=1 ∂ y i j ∂ b j = 1 $\frac{\partial y_{ij}}{\partial b_j} = 1$ 那么：

d b j = \sum i \partial L \partial y i j \cdot \partial y i j \partial b j = \sum i = 1 N d y i j

$\mathrm{d} b_j = \sum_i \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial b_j} = \sum_{i = 1}^{N} \mathrm{d} y_{ij}$
就是将

dy d y $\mathrm{d} y$ 的第一列所有行相加。同理，

dbj d b j $\mathrm{d} b_j$ 就是将

dy d y $\mathrm{d} y$ 第j列所有行相加。而

dy d y $\mathrm{d} y$ 为(N, C), 由此计算出的

dbj d b j $\mathrm{d} b_j$ 为 (1, C)，正好是b的shape。

grads['b2'] = np.sum(Dscores, axis=0)

这里用 维度分析 更好解释，正因为 $\mathrm{d} y$ 为(N, C)，而b (1, C)只能与 $\mathrm{d} y$ 有关，所以只能沿着axis=0相加得到。详细的推导摆在这里，以后再遇到按 维度分析 的方式直接用就行了。

这里再插一句，从 $\mathrm{d} b_1 = \sum_{i = 1}^{N} \mathrm{d} y_{i1}$ 来看， $\sum$ 的下标是从 $i$ 从1到N，这说明 $b_1$ 的grad是由 这一batch中所有sample 的第一个feature所决定的。

$\mathrm{d} W$ 的推导

同样以 $\mathrm{d} w_{11}$ 为例

d w 11 = \partial L \partial w 11 = \partial L \partial y \cdot \partial y \partial w 11 = \sum i \sum j \partial L \partial y i j \cdot \partial y i j \partial w 11

$\mathrm{d} w_{11} = \frac{\partial \mathrm{L}}{\partial w_{11}} = \frac{\partial \mathrm{L}}{\partial y} \cdot \frac{\partial y}{\partial w_{11}} = \sum_i \sum_j \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial w_{11}}$
从y的展开式来看，

w11 w 11 $w_{11}$ 仅与

yi1 y i 1 $y_{i1}$ 有关，而

∂yi1∂w11=xi1 ∂ y i 1 ∂ w 11 = x i 1 $\frac{\partial y_{i1}}{\partial w_{11}} = x_{i1}$ ，所以：

d w 11 = \sum i \sum j \partial L \partial y i j \cdot \partial y i j \partial w 11 = \sum i = 1 N x i 1 \cdot d y i 1

$\mathrm{d} w_{11} = \sum_i \sum_j \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial w_{11}} = \sum_{i = 1}^{N} x_{i1} \cdot \mathrm{d} y_{i1}$
推广到一般，可得：

d w p q = \sum i \sum j \partial L \partial y i j \cdot \partial y i j \partial w p q = \sum i = 1 N x i p \cdot d y i q,

$\mathrm{d} w_{pq} = \sum_i \sum_j \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial w_{pq}} = \sum_{i = 1}^{N} x_{ip} \cdot \mathrm{d} y_{iq},$
写成矩阵相乘形式为：

d w = ⎡ ⎣ ⎢ ⎢ ⎢ d w 11 d w 21 d w d 1 d w 12 d w 22 . . . d w d 2 . . . . . . . . . . . . d w 1 c d w 2 c d w d c ⎤ ⎦ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ x 11 x 21 x n 1 x 12 x 22 . . . x n 2 . . . . . . . . . . . . x 1 d x 2 d x n d ⎤ ⎦ ⎥ ⎥ ⎥ T * ⎡ ⎣ ⎢ ⎢ ⎢ d y 11 d y 21 d y n 1 d y 12 d y 22 . . . d y n 2 . . . . . . . . . . . . d y 1 c d y 2 c d y n c ⎤ ⎦ ⎥ ⎥ ⎥

$\mathrm{d} w = \begin{bmatrix} \mathrm{d} w_{11}& \mathrm{d} w_{12}& ... & \mathrm{d} w_{1c} \newline \mathrm{d} w_{21}& \mathrm{d} w_{22}& ... & \mathrm{d} w_{2c} \newline & ... & ... & \newline \mathrm{d} w_{d1}& \mathrm{d} w_{d2}& ... & \mathrm{d} w_{dc} \end{bmatrix} = \begin{bmatrix} x_{11}& x_{12}& ... & x_{1d}\newline x_{21}& x_{22}& ... & x_{2d}\newline & ... & ... & \newline x_{n1}& x_{n2}& ... & x_{nd} \end{bmatrix}^{T} * \begin{bmatrix} \mathrm{d} y_{11}& \mathrm{d} y_{12}& ... & \mathrm{d} y_{1c} \newline \mathrm{d} y_{21}& \mathrm{d} y_{22}& ... & \mathrm{d} y_{2c}\newline & ... & ... & \newline \mathrm{d} y_{n1}& \mathrm{d} y_{n2}& ... & \mathrm{d} y_{nc} \end{bmatrix}$
再用 维度分析 解释一下，X形如(N, D)，dY形如(N, C)，

dW d W $\mathrm{d} W$ 与W相同形如(D, C)，所以

dW=X.T.dot(dY) d W = X . T . d o t ( d Y ) $\mathrm{d} W = X.T.dot(\mathrm{d} Y)$ ，与公式推导得到的结果一致。

grads['W2'] = relu_out.T.dot(Dscores) + 2 * reg * W2

这里再插一句，从 $\mathrm{d} w_{11} = \sum_{i = 1}^{N} x_{i1} \cdot \mathrm{d} y_{i1}$ 来看， $\sum$ 的下标是从 $i$ 从1到N，这说明 $w_{11}$ 的grad是由 这一batch中所有sample 的第一个feature所决定的。

$\mathrm{d} X$ 的推导

既然写了，就把它写全吧。

d x 11 = \partial L \partial x 11 = \partial L \partial y \cdot \partial y \partial x 11 = \sum i \sum j \partial L \partial y i j \cdot \partial y i j \partial x 11

$\mathrm{d} x_{11} = \frac{\partial \mathrm{L}}{\partial x_{11}} = \frac{\partial \mathrm{L}}{\partial y} \cdot \frac{\partial y}{\partial x_{11}} = \sum_i \sum_j \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial x_{11}}$
而

x11 x 11 $x_{11}$ 仅与

y1j y 1 j $y_{1j}$ 有关，且

∂y1j∂x11=w1j ∂ y 1 j ∂ x 11 = w 1 j $\frac{\partial y_{1j}}{\partial x_{11}} = w_{1j}$ ，所以

d x 11 = \sum i \sum j \partial L \partial y i j \cdot \partial y i j \partial x 11 = \sum j = 1 C w 1 j \cdot d y 1 j

$\mathrm{d} x_{11} = \sum_i \sum_j \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial x_{11}} = \sum_{j = 1}^{C} w_{1j} \cdot \mathrm{d} y_{1j}$
推广到一般：

d x p q = \sum i \sum j \partial L \partial y i j \cdot \partial y i j \partial x p q = \sum j = 1 C d y p j \cdot w q j

$\mathrm{d} x_{pq} = \sum_i \sum_j \frac{\partial \mathrm{L}}{\partial y_{ij}} \cdot \frac{\partial y_{ij}}{\partial x_{pq}} = \sum_{j = 1}^{C} \mathrm{d} y_{pj} \cdot w_{qj}$
其矩阵相乘形式为：

d x = ⎡ ⎣ ⎢ ⎢ ⎢ d x 11 d x 21 d x d 1 d x 12 d x 22 . . . d x d 2 . . . . . . . . . . . . d x 1 c d x 2 c d x d c ⎤ ⎦ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ d y 11 d y 21 d y n 1 d y 12 d y 22 . . . d y n 2 . . . . . . . . . . . . d y 1 c d y 2 c d y n c ⎤ ⎦ ⎥ ⎥ ⎥ * ⎡ ⎣ ⎢ ⎢ ⎢ w 11 w 21 w d 1 w 12 w 22 . . . w d 2 . . . . . . . . . . . . w 1 c w 2 c w d c ⎤ ⎦ ⎥ ⎥ ⎥ T

$\mathrm{d} x = \begin{bmatrix} \mathrm{d} x_{11}& \mathrm{d} x_{12}& ... & \mathrm{d} x_{1c} \newline \mathrm{d} x_{21}& \mathrm{d} x_{22}& ... & \mathrm{d} x_{2c} \newline & ... & ... & \newline \mathrm{d} x_{d1}& \mathrm{d} x_{d2}& ... & \mathrm{d} x_{dc} \end{bmatrix} = \begin{bmatrix} \mathrm{d} y_{11}& \mathrm{d} y_{12}& ... & \mathrm{d} y_{1c} \newline \mathrm{d} y_{21}& \mathrm{d} y_{22}& ... & \mathrm{d} y_{2c}\newline & ... & ... & \newline \mathrm{d} y_{n1}& \mathrm{d} y_{n2}& ... & \mathrm{d} y_{nc} \end{bmatrix} * \begin{bmatrix} w_{11}& w_{12}& ... & w_{1c}\newline w_{21}& w_{22}& ... & w_{2c}\newline & ... & ... & \newline w_{d1}& w_{d2}& ... & w_{dc} \end{bmatrix}^{T}$
用 维度分析 解释一下，W形如(D, C)，X形如(N, D)，dY形如(N, C)，

dX d X $\mathrm{d} X$ 与X相同形如(N, D)，所以

dX=dY.dot(W.T) d X = d Y . d o t ( W . T ) $\mathrm{d} X = \mathrm{d} Y.dot(W.T)$ ，与公式推导得到的结果一致。

Drelu_out = Dscores.dot(W2.T)

一些小的细节

ReLU梯度的计算

Dlayer1_out = Drelu_out * (layer1_out > 0)

grad_check函数

for param_name in grads:
    f = lambda W: net.loss(X, y, reg=0.05)[0]
    param_grad_num = eval_numerical_gradient(f, net.params[param_name], verbose=False)

这里注意lambda函数最后的那个 [0]

    f = lambda W: net.loss(X, y, reg=0.05)[0]

因为net.loss函数的返回值是两个：

def loss(self, X, y=None, reg=0.0):
  ...
  return loss, grads

这个[0]表示在计算f(x)的时候，只考虑返回值的第一个，即loss。

Inline Question

Now that you have trained a Neural Network classifier, you may find that your testing accuracy is much lower than the training accuracy. In what ways can we decrease this gap? Select all that apply.

Train on a larger dataset.

Add more hidden units.

Increase the regularization strength.

None of the above.

增加dataset通常来讲可以；增加hidden可能会行，但不一定，因为反而会更加overfit；增大reg strength也可以减小overfit。上述所有措施都是可能，但不能保证一定行。