基本神经网络

最新推荐文章于 2022-03-24 22:57:14 发布

mstar1992

最新推荐文章于 2022-03-24 22:57:14 发布

阅读量571

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u013713117/article/details/53991839

版权

深度学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

符号含义

$x , 训练样本的输入特征,x \in \Re^{n}.$
$y 输出值/目标值,这里 y 可以是向量. 在autoencoder中， y=x.$
$(x^{(i)}, y^{(i)}),第 i 个训练样本$
$h_{W,b}(x),输入为 x 时的假设输出，其中包含参数 W,b. 该输出应当与目标值 y 具有相同的维数.$
$W^{(l)}_{ij},连接第 l 层 j 单元和第l+1 层 i 单元的参数.$
$b^{(l)}_{i},第 l+1 层 i 单元的偏置项. 也可以看作是连接第 l 层偏置单元和第 l+1 层 i 单元的参数.$
$\theta 参数向量,可以认为该向量是通过将参数 W,b 组合展开为一个长的列向量而得到.$
$a^{(l)}_i,网络中第 l 层 i 单元的激活（输出）值.另外，由于L_1 层是输入层，所以 a^{(1)}_i = x_i$
$f(\cdot)激活函数, 我们用 f(z) = \tanh(z).$
$z^{(l)}_i,第 l 层 i 单元所有输入的加权和. 因此有 a^{(l)}_i = f(z^{(l)}_i).$
$\alpha,学习率$
$s_l,第 l 层的单元数目（不包含偏置单元）.$
$n_l,网络中的层数. 通常 L_1 层是输入层， L_{n_l} 层是输出层.$
$\lambda,权重衰减系数.$
$\hat{x} ,对于一个autoencoder，该符号表示其输出值；亦即输入值 x 的重构值. 与 h_{W,b}(x) 含义相同.$
$\rho,稀疏值，可以用它指定我们所需的稀疏程度$
$\hat\rho_i,（sparse autoencoder中）隐藏单元i 的平均激活值.$
$\beta,（sparse autoencoder目标函数中）稀疏值惩罚项的权重.$

这里写图片描述

a (2) 1 a (2) 2 a (2) 3 h W, b (x) = f (W (1) 11 x 1 + W (1) 12 x 2 + W (1) 13 x 3 + b (1) 1) = f (W (1) 21 x 1 + W (1) 22 x 2 + W (1) 23 x 3 + b (1) 2) = f (W (1) 31 x 1 + W (1) 32 x 2 + W (1) 33 x 3 + b (1) 3) = a (3) 1 = f (W (2) 11 a (2) 1 + W (2) 12 a (2) 2 + W (2) 13 a (2) 3 + b (2) 1)

$\begin{align} a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)}) \\ a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)}) \\ a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)}) \\ h_{W,b}(x) &= a_1^{(3)} = f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)}) \end{align}$
简洁地表示：

z (2) a (2) z (3) h W, b (x) = W (1) x + b (1) = f (z (2)) = W (2) a (2) + b (2) = a (3) = f (z (3))

$\begin{align} z^{(2)} &= W^{(1)} x + b^{(1)} \\ a^{(2)} &= f(z^{(2)}) \\ z^{(3)} &= W^{(2)} a^{(2)} + b^{(2)} \\ h_{W,b}(x) &= a^{(3)} = f(z^{(3)}) \end{align}$

损失函数：

J (W, b) = [1 m \sum i = 1 m J (W, b; x (i), y (i))] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2 = [1 m \sum i = 1 m (1 2 ∥ ∥ h W, b (x (i)) - y (i) ∥ ∥ 2)] + λ 2 \sum l = 1 n l - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

$\begin{align} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\ &= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \end{align}$
第一项是一个均方差项。第二项是一个规则化项（也叫 权重衰减项），其目的是减小权重的幅度， 防止过度拟合。
[注：通常权重衰减的计算并不使用偏置项

b(l)i，比如我们在J(W,b) $b^{(l)}_i，比如我们在 J(W, b)$ 的定义中就没有使用。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。]

我们需要将每一个参数 $W^{(l)}_{ij} 和 b^{(l)}_i$ 初始化为一个很小的、接近零的随机值（比如说，使用正态分布 ${Normal}(0,\epsilon^2) 生成的随机值，其中 \epsilon 设置为 0.01$ ），之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 $J(W, b)$ 是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是在实际应用中，梯度下降法通常能得到令人满意的结果。最后，需要再次强调的是，要将参数进行随机初始化，而不是全部置为 0。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数（也就是说，对于所有 $i， W^{(1)}_{ij}都会取相同的值，那么对于任何输入 x 都会有： a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \ldots ）$ 。随机初始化的目的是使对称失效。

后向传播求偏导:

\partial \partial W ( l ) i j J (W, b) \partial \partial b ( l ) i J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial W ( l ) i j J (W, b; x (i), y (i)) ⎤ ⎦ + λ W (l) i j = 1 m \sum i = 1 m \partial \partial b ( l ) i J (W, b; x (i), y (i))

$\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &= \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \end{align}$

用反向传播算法计算偏导数，思路如下：给定一个样例 $(x,y)$ ，我们首先进行“前向传导”运算，计算出网络中所有的激活值，包括 $h_{W,b}(x)$ 的输出值。之后，针对第 l 层的每一个节点 i，我们计算出其“残差” $\delta^{(l)}_i$ ，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为 $\delta^{(n_l)}_i （第 n_l 层表示输出层$ ）。对于隐藏单元我们如何处理呢？我们将基于节点（第 l+1 层节点）残差的加权平均值计算 $\delta^{(l)}_i$ ，这些节点以 $a^{(l)}_i$ 作为输入。下面将给出反向传导算法的细节：

进行前馈传导计算，利用前向传导公式，得到 $L_2, L_3, \ldots$ 直到输出层 $L_{n_l}$ 的激活值。
对于第 $n_l 层（输出层）的每个输出单元 i$ ，我们根据以下公式计算残差：

$δ (n l) i = \partial \partial z n l i J (W, b; x, y) = \partial \partial z n l i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = \partial \partial z n l i 1 2 \sum j = 1 S n l (y j - a (n l) j) 2 = \partial \partial z n l i 1 2 \sum j = 1 S n l (y j - f (z (n l) j)) 2 = - (y i - f (z (n l) i)) \cdot f' (z (n l) i) = - (y i - a (n l) i) \cdot f' (z (n l) i)$ $\begin{align} \delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}$
对 $l = n_l-1, n_l-2, n_l-3, \ldots, 2 的各个层，第 l 层的第 i$ 个节点的残差计算方法如下：
$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
注：

$δ (n l - 1) i = \partial \partial z n l - 1 i J (W, b; x, y) = \partial \partial z n l - 1 i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = \partial \partial z n l - 1 i 1 2 \sum j = 1 S n l (y j - a (n l) j) 2 = 1 2 \sum j = 1 S n l \partial \partial z n l - 1 i (y j - a (n l) j) 2 = 1 2 \sum j = 1 S n l \partial \partial z n l - 1 i (y j - f (z (n l) j)) 2 = \sum j = 1 S n l - (y j - f (z (n l) j)) \cdot \partial \partial z ( n l - 1 ) i f (z (n l) j) = \sum j = 1 S n l - (y j - f (z (n l) j)) \cdot f' (z (n l) j) \cdot \partial z ( n l ) j \partial z ( n l - 1 ) i = \sum j = 1 S n l δ (n l) j \cdot \partial z ( n l ) j \partial z n l - 1 i = \sum j = 1 S n l ⎛ ⎝ δ (n l) j \cdot \partial \partial z n l - 1 i \sum k = 1 S n l - 1 f (z n l - 1 k) \cdot W n l - 1 j k ⎞ ⎠ = \sum j = 1 S n l δ (n l) j \cdot W n l - 1 j i \cdot f' (z n l - 1 i) = ⎛ ⎝ \sum j = 1 S n l W n l - 1 j i δ (n l) j ⎞ ⎠ f' (z n l - 1 i)$ $\begin{align} \delta^{(n_l-1)}_i &=\frac{\partial}{\partial z^{n_l-1}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\ &= \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 = \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\ &= \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot \frac{\partial}{\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) = \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot f'(z_j^{(n_l)}) \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{(n_l-1)}} \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{n_l-1}} = \sum_{j=1}^{S_{n_l}} \left(\delta_j^{(n_l)} \cdot \frac{\partial}{\partial z_i^{n_l-1}}\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \cdot W_{jk}^{n_l-1}\right) \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot W_{ji}^{n_l-1} \cdot f'(z_i^{n_l-1}) = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1}) \end{align}$
以上逐次从后向前求导的过程即为“反向传导”的本意所在.
计算我们需要的偏导数，计算方法如下：

\partial \partial W ( l ) i j J (W, b; x, y) \partial \partial b ( l ) i J (W, b; x, y) = a (l) j δ (l + 1) i = δ (l + 1) i .

$\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \end{align}$

PS:如果选择 $f(z) = 1/(1+\exp(-z))$ ，也就是sigmoid函数，那么它的导数就是 $f'(z) = f(z) (1-f(z)) （如果选择tanh函数，那它的导数就是 \textstyle f'(z) = 1- (f(z))^2$

mstar1992

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基本神经网络

符号含义x,训练样本的输入特征,x∈Rn. x , 训练样本的输入特征,x \in \Re^{n}.y输出值/目标值,这里y可以是向量.在autoencoder中，y=x.y 输出值/目标值,这里 y 可以是向量. 在autoencoder中， y=x.(x(i),y(i)),第i个训练样本 (x^{(i)}, y^{(i)}),第 i 个训练样本hW,b(x),输入为x时的假设输出，
复制链接

扫一扫