反向传播的一些推导

最新推荐文章于 2022-08-29 17:02:09 发布

ljhandlwt

最新推荐文章于 2022-08-29 17:02:09 发布

阅读量705

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/ljhandlwt/article/details/78717779

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

全连接层(FC)

FC的输入为 $\vec x$ ,且 $\vec{x}\in \mathbb{R^{n×1}}$ .
权重矩阵为 $W$ ,且 $W\in \mathbb{R^{n×m}}$ ,其中 $W_{ij}$ 表示第 $j$ 个神经元的第i个参数.
偏置为 $\vec b$ ,且 $\vec{b}\in \mathbb{R^{m×1}}$ .
输出为 $\vec y$ ,且 $\vec{y}\in \mathbb{R^{m×1}}$ .
那么,前向传播(forward)的计算公式是:

y ⃗ = W T x ⃗ + b ⃗

$\vec{y}=W^T\vec{x}+\vec{b}$

把向量和矩阵都具体化为标量,则有:

y i = \sum j x j W j i + b i

$y_i=\sum_j x_j W_{ji}+b_i$

设损失函数为 $L$ ,已知 $\frac{\partial{L}}{\partial{\vec{y}}}$ ,求 $\frac{\partial{L}}{\partial{\vec{x}}}$ , $\frac{\partial{L}}{\partial{W}}$ , $\frac{\partial{L}}{\partial{\vec{b}}}$ .

1. $\frac{\partial{L}}{\partial{\vec{b}}}$

\partial L \partial b i = = = \sum j \partial L \partial y j * \partial y j \partial b i \partial L \partial y i * \partial y i \partial b i \partial L \partial y i

$\begin{eqnarray*} \frac{\partial{L}}{\partial{b_i}} &=& \sum_j \frac{\partial{L}}{\partial{y_j}}*\frac{\partial{y_j}}{\partial{b_i}} \\ &=& \frac{\partial{L}}{\partial{y_i}}*\frac{\partial{y_i}}{\partial{b_i}} \\ &=& \frac{\partial{L}}{\partial{y_i}} \end{eqnarray*}$

因此:

\partial L \partial b ⃗ = \partial L \partial y ⃗

$\frac{\partial{L}}{\partial{\vec{b}}}=\frac{\partial{L}}{\partial{\vec{y}}}$

2. $\frac{\partial{L}}{\partial{W}}$

\partial L \partial W i j = = = \sum k \partial L \partial y k * \partial y k \partial W i j \partial L \partial y j * \partial y j \partial W i j \partial L \partial y j * x i

$\begin{eqnarray*} \frac{\partial{L}}{\partial{W_{ij}}} &=& \sum_k \frac{\partial{L}}{\partial{y_k}}*\frac{\partial{y_k}}{\partial{W_{ij}}} \\ &=& \frac{\partial{L}}{\partial{y_j}}*\frac{\partial{y_j}}{\partial{W_{ij}}} \\ &=& \frac{\partial{L}}{\partial{y_j}}*x_i \end{eqnarray*}$

因此:

\partial L \partial W = x ⃗ (\partial L \partial y ⃗) T

$\frac{\partial{L}}{\partial{W}}=\vec{x}(\frac{\partial{L}}{\partial{\vec{y}}})^T$

3. $\frac{\partial{L}}{\partial{\vec{x}}}$

\partial L \partial x i = = = \sum j \partial L \partial y j * \partial y j \partial x i \sum j \partial L \partial y j * W i j W i \to * \partial L \partial y ⃗

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=& \sum_j \frac{\partial{L}}{\partial{y_j}}*\frac{\partial{y_j}}{\partial{x_i}} \\ &=& \sum_j \frac{\partial{L}}{\partial{y_j}}*W_{ij} \\ &=& \vec{W_{i}}*\frac{\partial{L}}{\partial{\vec{y}}} \end{eqnarray*}$

因此:

\partial L \partial x ⃗ = W \partial L \partial y ⃗

$\frac{\partial{L}}{\partial{\vec{x}}}=W\frac{\partial{L}}{\partial{\vec{y}}}$

Batch normalization(BN)

BN的输入为 $\vec x$ ,且 $\vec{x}\in \mathbb{R^{n×1}}$ ,表示一个batch_size为 $n$ ,特征长度为 $1$ .
输出为 $\vec y$ ,且 $\vec{y}\in \mathbb{R^{n×1}}$ .
平均值 $\mu_B$ 和方差 $\sigma_B^2$ 均为实数.
$\hat{\vec{x}}\in \mathbb{R^{n×1}}$ .
$\gamma$ 和 $\beta$ 均为实数.

前向传播(forward)的计算公式是:

μ B σ 2 B x i^y i = = = = 1 m \sum i x i 1 m \sum i (x i - μ B) 2 x i - μ B σ 2 B + ϵ - - - - - \sqrt γ x i^+ β

$\begin{eqnarray*} \mu_B&=&\frac{1}{m} \sum_i x_i \\ \sigma_B^2&=&\frac{1}{m} \sum_i (x_i-\mu_B)^2 \\ \hat{x_i}&=&\frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon}} \\ y_i&=&\gamma\hat{x_i}+\beta \end{eqnarray*}$

设损失函数为 $L$ ,已知 $\frac{\partial{L}}{\partial{\vec{y}}}$ ,求 $\frac{\partial{L}}{\partial{\vec{x}}}$ , $\frac{\partial{L}}{\partial{\gamma}}$ , $\frac{\partial{L}}{\partial{\beta}}$ .

1. $\frac{\partial{\mu_B}}{\partial{x_i}}$ 和 $\frac{\partial{\sigma_B^2}}{\partial{x_i}}$

\partial μ B \partial x i \partial σ 2 B \partial x i = = = = = = = = \partial 1 m \sum j x j \partial x i 1 m \partial 1 m \sum j ( x j - μ B ) 2 \partial x i 2 m \sum j (x j - μ B) \partial ( x j - μ B ) \partial x i 2 m (\sum j (x j - μ B) \partial x j \partial x i + \sum j (x j - μ B) \partial μ B \partial x i) 2 m ((x i - μ B) + 1 m \sum j (x j - μ B)) 2 m ((x i - μ B) + 1 m \sum j x j - μ B) 2 m (x i - μ B)

$\begin{eqnarray*} \frac{\partial{\mu_B}}{\partial{x_i}} &=&\frac{\partial{\frac{1}{m}\sum_j x_j}}{\partial{x_i}} \\ &=&\frac{1}{m} \\ \frac{\partial{\sigma_B^2}}{\partial{x_i}} &=&\frac{\partial{\frac{1}{m} \sum_j (x_j-\mu_B)^2}}{\partial{x_i}} \\ &=&\frac{2}{m}\sum_j (x_j-\mu_B)\frac{\partial{(x_j-\mu_B)}}{\partial{x_i}} \\ &=&\frac{2}{m}(\sum_j (x_j-\mu_B)\frac{\partial{x_j}}{\partial{x_i}}+\sum_j (x_j-\mu_B)\frac{\partial{\mu_B}}{\partial{x_i}}) \\ &=&\frac{2}{m}((x_i-\mu_B)+\frac{1}{m}\sum_j (x_j-\mu_B)) \\ &=&\frac{2}{m}((x_i-\mu_B)+\frac{1}{m}\sum_j x_j-\mu_B) \\ &=&\frac{2}{m}(x_i-\mu_B) \end{eqnarray*}$

2. $\frac{\partial{\hat{x_j}}}{\partial{x_i}}$

\partial x j ^ \partial x i = = \partial ( x j - μ B ) σ 2 B + ϵ - - - - - \sqrt + \partial σ 2 B + ϵ - - - - - \sqrt ( x j - μ B ) ( σ 2 B + ϵ ) \partial x i 1 m (m \partial x j \partial x i - 1 σ 2 B + ϵ - - - - - \sqrt - x j - μ B ( σ 2 B + ϵ ) 3 2)

$\begin{eqnarray*} \frac{\partial{\hat{x_j}}}{\partial{x_i}} &=&\frac{\partial{(x_j-\mu_B)}\sqrt{\sigma_B^2+\epsilon}+\partial{\sqrt{\sigma_B^2+\epsilon}}(x_j-\mu_B)}{(\sigma_B^2+\epsilon)\partial{x_i}} \\ &=&\frac{1}{m}(\frac{m\frac{\partial{x_j}}{\partial{x_i}}-1}{\sqrt{\sigma_B^2+\epsilon}}-\frac{x_j-\mu_B}{(\sigma_B^2+\epsilon)^{\frac{3}{2}}}) \end{eqnarray*}$

3. $\frac{\partial{L}}{\partial{\beta}}$

\partial L \partial β = = \sum i \partial L \partial y i \partial y i \partial β \sum i \partial L \partial y i

$\begin{eqnarray*} \frac{\partial{L}}{\partial{\beta}} &=&\sum_i \frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_i}}{\partial{\beta}} \\ &=&\sum_i \frac{\partial{L}}{\partial{y_i}} \end{eqnarray*}$

4. $\frac{\partial{L}}{\partial{\gamma}}$

\partial L \partial γ = = \sum i \partial L \partial y i \partial y i \partial γ \sum i \partial L \partial y i x i^

$\begin{eqnarray*} \frac{\partial{L}}{\partial{\gamma}} &=&\sum_i \frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_i}}{\partial{\gamma}} \\ &=&\sum_i \frac{\partial{L}}{\partial{y_i}} \hat{x_i} \end{eqnarray*}$

因此:

\partial L \partial γ = x i \to^T \partial L \partial y ⃗

$\frac{\partial{L}}{\partial{\gamma}}=\hat{\vec{x_i}}^T \frac{\partial{L}}{\partial{\vec{y}}}$

5. $\frac{\partial{L}}{\partial{\vec{x}}}$

\partial L \partial x i = = = \sum j \partial L \partial y j \partial y j \partial x i \sum j \partial L \partial y i \partial y j \partial x j ^\partial x j ^ \partial x i γ \sum j \partial L \partial y i \partial x j ^ \partial x i

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=&\sum_j \frac{\partial{L}}{\partial{y_j}} \frac{\partial{y_j}}{\partial{x_i}} \\ &=&\sum_j \frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_j}}{\partial{\hat{x_j}}} \frac{\partial{\hat{x_j}}}{\partial{x_i}} \\ &=&\gamma \sum_j \frac{\partial{L}}{\partial{y_i}} \frac{\partial{\hat{x_j}}}{\partial{x_i}} \\ \end{eqnarray*}$

卷积(conv)

设conv的输入是 $X$ , $X\in \mathbb{R^{n×m×c_1}}$ , $n$ , $m$ , $c_1$ 分别为输入的高,宽,通道数.
conv的核kernel是 $3×3$ ,步长strides是 $1×1$ .
conv的权重是 $W$ , $W\in \mathbb{R^{3×3×c_1×c_2}}$ .
conv的偏置是 $\vec{b}$ , $\vec{b}\in \mathbb{R^{c_2×1}}$
conv的输出是 $Y$ , $Y\in \mathbb{R^{n×m×c_2}}$ , $c_2$ 为输出的通道数(这里卷积采用same的padding模式).

那么,卷积的计算公式是:

Y i, j, k = (\sum k 1 = 1 c 1 \sum i 1 = 1 3 \sum j 1 = 1 3 W i 1, j 1, k 1, k X i 2, j 2, k 1) + b k

$Y_{i,j,k}=(\sum_{k_1=1}^{c_1} \sum_{i_1=1}^3 \sum_{j_1=1}^3 W_{i_1,j_1,k_1,k} X_{i_2,j_2,k_1} ) + b_k$
其中

i2=i+i1−1,j2=j+j1−1 $i_2=i+i_1-1,j_2=j+j_1-1$

设损失函数为 $L$ ,已知 $\frac{\partial{L}}{\partial{Y}}$ ,求 $\frac{\partial{L}}{\partial{X}}$ , $\frac{\partial{L}}{\partial{W}}$ , $\frac{\partial{L}}{\partial{\vec{b}}}$ .

1. $\frac{\partial{L}}{\partial{\vec{b}}}$

\partial L \partial b k 1 = = = \sum k c 2 \sum i, j \partial L \partial Y i , j , k \partial Y i , j , k \partial b k 1 \sum i, j \partial L \partial Y i , j , k 1 \partial Y i , j , k 1 \partial b k 1 \sum i, j \partial L \partial Y i , j , k 1

$\begin{eqnarray*} \frac{\partial{L}}{\partial{b_{k_1}}} &=& \sum_k^{c_2} \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k}}}\frac{\partial{Y_{i,j,k}}}{\partial{b_{k_1}}} \\ &=& \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k_1}}}\frac{\partial{Y_{i,j,k_1}}}{\partial{b_{k_1}}} \\ &=& \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k_1}}} \end{eqnarray*}$

即:

\partial L \partial b k = \sum i, j \partial L \partial Y i , j , k

$\frac{\partial{L}}{\partial{b_{k}}}=\sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k}}}$

2. $\frac{\partial{L}}{\partial{W}}$

\partial L \partial W i 1 , j 1 , k 1 , k 2 = = = \sum k c 2 \sum i, j \partial L \partial Y i , j , k \partial Y i , j , k \partial W i 1 , j 1 , k 1 , k 2 \sum i, j \partial L \partial Y i , j , k 2 \partial Y i , j , k 2 \partial W i 1 , j 1 , k 1 , k 2 \sum i, j \partial L \partial Y i , j , k 2 X i 2, j 2, k 1

$\begin{eqnarray*} \frac{\partial{L}}{\partial{W_{i_1,j_1,k_1,k_2}}} &=& \sum_k^{c_2} \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k}}}\frac{\partial{Y_{i,j,k}}}{\partial{W_{i_1,j_1,k_1,k_2}}} \\ &=& \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k_2}}}\frac{\partial{Y_{i,j,k_2}}}{\partial{W_{i_1,j_1,k_1,k_2}}} \\ &=& \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k_2}}}X_{i_2,j_2,k_1} \\ \end{eqnarray*}$

即:

\partial L \partial W i 1 , j 1 , k 1 , k = \sum i, j \partial L \partial Y i , j , k X i 2, j 2, k 1

$\frac{\partial{L}}{\partial{W_{i_1,j_1,k_1,k}}}=\sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k}}} X_{i_2,j_2,k_1}$

其中, $i_2=i+i_1-1,j_2=j+j_1-1$

3. $\frac{\partial{L}}{\partial{X}}$

\partial L \partial X i 2 , j 2 , k 1 = = \sum k c 2 \sum i, j \partial L \partial Y i , j , k \partial Y i , j , k \partial X i 2 , j 2 , k 1 \sum k c 2 \sum i, j \partial L \partial Y i , j , k W i 1, j 1, k 1, k

$\begin{eqnarray*} \frac{\partial{L}}{\partial{X_{i_2,j_2,k_1}}} &=& \sum_k^{c_2} \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k}}} \frac{\partial{Y_{i,j,k}}}{\partial{X_{i_2,j_2,k_1}}} \\ &=& \sum_k^{c_2} \sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j,k}}} W_{i_1,j_1,k_1,k} \end{eqnarray*}$

其中, $i_2=i+i_1-1,j_2=j+j_1-1$

激活函数

relu

r e l u (x) r e l u' (x) = = {x 0 x > 0 x \leq 0 {10 x > 0 x < 0

$\begin{eqnarray*} relu(x)&=& \begin{cases} x& x>0 \\ 0& x\leq0 \end{cases} \\ relu'(x)&=& \begin{cases} 1& x>0\\ 0& x<0 \end{cases} \end{eqnarray*}$
于是:

\partial L \partial x i = = \partial L \partial y i \partial y i \partial x i {\partial L \partial y i 0 x i > 0 x i < 0

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=&\frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_i}}{\partial{x_i}} \\ &=& \begin{cases} \frac{\partial{L}}{\partial{y_i}}& x_i>0\\ 0& x_i<0 \end{cases} \end{eqnarray*}$

sigmoid

s i g m o i d (x) s i g m o i d' (x) = = 1 1 + e - x e - x ( 1 + e - x ) 2

$\begin{eqnarray*} sigmoid(x)&=&\frac{1}{1+e^{-x}} \\ sigmoid'(x)&=&\frac{e^{-x}}{(1+e^{-x})^2} \end{eqnarray*}$
于是:

\partial L \partial x i = = \partial L \partial y i \partial y i \partial x i \partial L \partial y i e - x i ( 1 + e - x i ) 2

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=&\frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_i}}{\partial{x_i}} \\ &=&\frac{\partial{L}}{\partial{y_i}} \frac{e^{-x_i}}{(1+e^{-x_i})^2} \end{eqnarray*}$

tanh

t a n h (x) t a n h' (x) = = e x - e - x e x + e - x 4 ( e x + e - x ) 2

$\begin{eqnarray*} tanh(x)&=&\frac{e^x-e^{-x}}{e^x+e^{-x}} \\ tanh'(x)&=&\frac{4}{(e^x+e^{-x})^2} \end{eqnarray*}$
于是:

\partial L \partial x i = = \partial L \partial y i \partial y i \partial x i \partial L \partial y i 4 ( e x + e - x ) 2

softmax

s o f t m a x (x i) \partial s o f t m a x ( x i ) \partial x i \partial s o f t m a x ( x j ) \partial x i = = = = = = e x i \sum j e x j \partial e x i \sum j e x j \partial x i e x i \sum j e x j - e x i e x i ( \sum j e x j ) 2 e x i ( \sum j e x j - 1 ) ( \sum j e x j ) 2 \partial e x j \sum k e x k \partial x i - e x j ( \sum k e x k ) 2

$\begin{eqnarray*} softmax(x_i)&=&\frac{e^{x_i}}{\sum_j e^{x_j}} \\ \frac{\partial{softmax(x_i)}}{\partial{x_i}} &=&\frac{\partial{\frac{e^{x_i}}{\sum_j e^{x_j}}}}{\partial{x_i}} \\ &=&\frac{e^{x_i} \sum_j e^{x_j}-e^{x_i} e^{x_i}}{(\sum_j e^{x_j})^2} \\ &=&\frac{e^{x_i}(\sum_j e^{x_j}-1)}{(\sum_j e^{x_j})^2} \\ \frac{\partial{softmax(x_j)}}{\partial{x_i}} &=&\frac{\partial{\frac{e^{x_j}}{\sum_k e^{x_k}}}}{\partial{x_i}} \\ &=&-\frac{e^{x_j}}{(\sum_k e^{x_k})^2} \end{eqnarray*}$
于是:

\partial L \partial x i = = = \sum j \partial L \partial y j \partial y j \partial x i - \sum j \neq i \partial L \partial y j e x j ( \sum k e x k ) 2 + \partial L \partial y i e x i ( \sum k e x k - 1 ) ( \sum k e x k ) 2 \partial L \partial y i e x i \sum k e x k - \sum j \partial L \partial y j e x j ( \sum k e x k ) 2

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=&\sum_j \frac{\partial{L}}{\partial{y_j}} \frac{\partial{y_j}}{\partial{x_i}} \\ &=&-\sum_{j\neq i} \frac{\partial{L}}{\partial{y_j}} \frac{e^{x_j}}{(\sum_k e^{x_k})^2} + \frac{\partial{L}}{\partial{y_i}} \frac{e^{x_i}(\sum_k e^{x_k}-1)}{(\sum_k e^{x_k})^2} \\ &=&\frac{\partial{L}}{\partial{y_i}} \frac{e^{x_i}}{\sum_k e^{x_k}} - \sum_j \frac{\partial{L}}{\partial{y_j}} \frac{e^{x_j}}{(\sum_k e^{x_k})^2} \end{eqnarray*}$

selu

s e l u (x) s e l u' (x) λ α = = = = λ {x α (e x - 1) x > 0 x \leq 0 λ {1 α e x x > 0 x < 0 1.0507009873554804934193349852946 1.6732632423543772848170429916717

$\begin{eqnarray*} selu(x)&=& \lambda \begin{cases} x& x>0 \\ \alpha(e^x-1)& x\leq0 \end{cases} \\ selu'(x)&=& \lambda \begin{cases} 1& x>0\\ \alpha e^x& x<0 \end{cases} \\ \lambda&=&1.0507009873554804934193349852946 \\ \alpha&=&1.6732632423543772848170429916717 \end{eqnarray*}$
于是:

\partial L \partial x i = = \partial L \partial y i \partial y i \partial x i λ \partial L \partial y i {1 α e x x i > 0 x i < 0

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=&\frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_i}}{\partial{x_i}} \\ &=& \lambda \frac{\partial{L}}{\partial{y_i}} \begin{cases} 1& x_i>0\\ \alpha e^x& x_i<0 \end{cases} \end{eqnarray*}$

最大池化(max-pooling)

设Max-pooling的输入是 $X$ , $X\in \mathbb{R^{n×m}}$ ( $n$ , $m$ 均为偶数).
Max-pooling的核kernel和步长strides是 $2×2$ .
Max-pooling的输出是 $Y$ , $Y\in \mathbb{R^{\frac{n}{2}×\frac{m}{2}}}$ .

那么,最大池化的计算公式是:

Y i, j = m a x (X 2 i, 2 j, X 2 i, 2 j + 1, X 2 i, 2 j + 1, X 2 i + 1, 2 j + 1)

$Y_{i,j}=max(X_{2i,2j},X_{2i,2j+1},X_{2i,2j+1},X_{2i+1,2j+1})$

其偏导数为:

\partial Y i , j \partial X a , b = {10 X a, b = m a x (X 2 i, 2 j, X 2 i, 2 j + 1, X 2 i, 2 j + 1, X 2 i + 1, 2 j + 1) e l s e

$\frac{\partial{Y_{i,j}}}{\partial{X_{a,b}}}= \begin{cases} 1& X_{a,b}=max(X_{2i,2j},X_{2i,2j+1},X_{2i,2j+1},X_{2i+1,2j+1})\\ 0& else \end{cases}$

设损失函数为 $L$ ,已知 $\frac{\partial{L}}{\partial{Y_{i,j}}}$ ,求 $\frac{\partial{L}}{\partial{X_{a,b}}}$ ,其中 $a\in [2i,2i+1],b\in [2j,2j+1]$ .

\partial L \partial X a , b = = = \sum i, j \partial L \partial Y i , j \partial Y i , j \partial X a , b \partial L \partial Y i , j \partial Y i , j \partial X a , b {\partial L \partial Y i , j 0 X a, b = m a x (X 2 i, 2 j, X 2 i, 2 j + 1, X 2 i, 2 j + 1, X 2 i + 1, 2 j + 1) e l s e

$\begin{eqnarray*} \frac{\partial{L}}{\partial{X_{a,b}}} &=&\sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j}}} \frac{\partial{Y_{i,j}}}{\partial{X_{a,b}}} \\ &=&\frac{\partial{L}}{\partial{Y_{i,j}}} \frac{\partial{Y_{i,j}}}{\partial{X_{a,b}}} \\ &=& \begin{cases} \frac{\partial{L}}{\partial{Y_{i,j}}}& X_{a,b}=max(X_{2i,2j},X_{2i,2j+1},X_{2i,2j+1},X_{2i+1,2j+1})\\ 0& else \end{cases} \end{eqnarray*}$

平均池化(avg-pooling)

设Avg-pooling的输入是 $X$ , $X\in \mathbb{R^{n×m}}$ ( $n$ , $m$ 均为偶数).
Avg-pooling的核kernel和步长strides是 $2×2$ .
Avg-pooling的输出是 $Y$ , $Y\in \mathbb{R^{\frac{n}{2}×\frac{m}{2}}}$ .

那么,平均池化的计算公式是:

Y i, j = 1 4 (X 2 i, 2 j + X 2 i, 2 j + 1 + X 2 i, 2 j + 1 + X 2 i + 1, 2 j + 1)

$Y_{i,j}=\frac{1}{4} (X_{2i,2j}+X_{2i,2j+1}+X_{2i,2j+1}+X_{2i+1,2j+1})$

其偏导数为:

\partial Y i , j \partial X a , b = 1 4

$\frac{\partial{Y_{i,j}}}{\partial{X_{a,b}}}=\frac{1}{4}$

设损失函数为 $L$ ,已知 $\frac{\partial{L}}{\partial{Y_{i,j}}}$ ,求 $\frac{\partial{L}}{\partial{X_{a,b}}}$ ,其中 $a\in [2i,2i+1],b\in [2j,2j+1]$ .

\partial L \partial X a , b = = = \sum i, j \partial L \partial Y i , j \partial Y i , j \partial X a , b \partial L \partial Y i , j \partial Y i , j \partial X a , b 1 4 \partial L \partial Y i , j

$\begin{eqnarray*} \frac{\partial{L}}{\partial{X_{a,b}}} &=&\sum_{i,j} \frac{\partial{L}}{\partial{Y_{i,j}}} \frac{\partial{Y_{i,j}}}{\partial{X_{a,b}}} \\ &=&\frac{\partial{L}}{\partial{Y_{i,j}}} \frac{\partial{Y_{i,j}}}{\partial{X_{a,b}}} \\ &=&\frac{1}{4} \frac{\partial{L}}{\partial{Y_{i,j}}} \end{eqnarray*}$

dropout

d r o p o u t (x) d r o p o u t' (x) = = {x k p 0 k e e p d r o p {1 k p 0 k e e p d r o p

$\begin{eqnarray*} dropout(x)&=& \begin{cases} \frac{x}{kp}& keep \\ 0& drop \end{cases} \\ dropout'(x)&=& \begin{cases} \frac{1}{kp}& keep \\ 0& drop \end{cases} \end{eqnarray*}$

其中, $kp$ 是保留的比例.

于是:

\partial L \partial x i = = \partial L \partial y i \partial y i \partial x i {1 k p \partial L \partial y i 0 k e e p d r o p

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=&\frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_i}}{\partial{x_i}} \\ &=& \begin{cases} \frac{1}{kp}\frac{\partial{L}}{\partial{y_i}}& keep \\ 0& drop \end{cases} \end{eqnarray*}$

clip

c l i p (x; a, b) c l i p' (x; a, b) = = ⎧ ⎩ ⎨ a x b x < a a \leq x \leq b x > b ⎧ ⎩ ⎨ 010 x < a a \leq x \leq b x > b

$\begin{eqnarray*} clip(x;a,b)&=& \begin{cases} a& x<a \\ x& a \leq x \leq b \\ b& x>b \end{cases} \\ clip'(x;a,b)&=& \begin{cases} 0& x<a \\ 1& a \leq x \leq b \\ 0& x>b \end{cases} \end{eqnarray*}$

于是:

\partial L \partial x i = = \partial L \partial y i \partial y i \partial x i ⎧ ⎩ ⎨ ⎪ ⎪ 0 \partial L \partial y i 0 x < a a \leq x \leq b x > b

$\begin{eqnarray*} \frac{\partial{L}}{\partial{x_i}} &=&\frac{\partial{L}}{\partial{y_i}} \frac{\partial{y_i}}{\partial{x_i}} \\ &=& \begin{cases} 0& x<a \\ \frac{\partial{L}}{\partial{y_i}}& a \leq x \leq b\\ 0& x>b \end{cases} \end{eqnarray*}$

损失函数

softmax+交叉熵

设softmax的输入为 $\vec{x}$ , $\vec{x}\in \mathbb{R^{n×1}}$ .
设softmax的输出为 $\vec{y}$ , $\vec{y}\in \mathbb{R^{n×1}}$ .
设onehot后的标签为 $\vec{l}$ , $\vec{l}\in \mathbb{R^{n×1}}$ .
设标签为 $k$ .
设交叉熵为 $E$ ,则:

E = = - l ⃗ l o g (y ⃗) - l o g (y k)

$\begin{eqnarray*} E &=&-\vec{l} log(\vec{y}) \\ &=&-log(y_k) \end{eqnarray*}$

则:

\partial E \partial y k \partial E \partial y i = = - 1 y k 0 i \neq k

$\begin{eqnarray*} \frac{\partial{E}}{\partial{y_k}}&=&-\frac{1}{y_k} \\ \frac{\partial{E}}{\partial{y_i}}&=&0 &i\neq k \end{eqnarray*}$

因此:

\partial E \partial x i \partial E \partial x k = = = = = = = \sum j \partial E \partial y j \partial y j \partial x i \partial E \partial y k \partial y k \partial x i 1 y k e x k ( \sum l e x l ) 2 \sum j \partial E \partial y j \partial y j \partial x k \partial E \partial y k \partial y k \partial x k - 1 y k e x k ( \sum l e x l - 1 ) ( \sum l e x l ) 2 - 1 y k e x k \sum l e x l + 1 y k e x k ( \sum l e x l ) 2

$\begin{eqnarray*} \frac{\partial{E}}{\partial{x_i}} &=&\sum_j \frac{\partial{E}}{\partial{y_j}} \frac{\partial{y_j}}{\partial{x_i}} \\ &=&\frac{\partial{E}}{\partial{y_k}} \frac{\partial{y_k}}{\partial{x_i}} \\ &=&\frac{1}{y_k} \frac{e^{x_k}}{(\sum_l e^{x_l})^2} \\ \frac{\partial{E}}{\partial{x_k}} &=&\sum_j \frac{\partial{E}}{\partial{y_j}} \frac{\partial{y_j}}{\partial{x_k}} \\ &=&\frac{\partial{E}}{\partial{y_k}} \frac{\partial{y_k}}{\partial{x_k}} \\ &=&-\frac{1}{y_k} \frac{e^{x_k}(\sum_l e^{x_l}-1)}{(\sum_l e^{x_l})^2} \\ &=&-\frac{1}{y_k} \frac{e^{x_k}}{\sum_l e^{x_l}} +\frac{1}{y_k} \frac{e^{x_k}}{(\sum_l e^{x_l})^2} \end{eqnarray*}$