机器学习笔记——人工神经网络(2)

最新推荐文章于 2023-12-27 17:57:51 发布

Simp丶

最新推荐文章于 2023-12-27 17:57:51 发布

阅读量267

点赞数

分类专栏：机器学习文章标签：神经网络反向传播

本文链接：https://blog.csdn.net/sp1206/article/details/80363882

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

代价函数

变量定义
$L$ ：神经网络的总层数
$s_l$ ：第 $l$ 层的单元（神经元）数量
$K$ ：输出层的单元数量

逻辑回归的代价函数（正则化）

神经网络的代价函数

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k log ((h Θ (x (i))) k) + (1 - y (i) k) log (1 - (h Θ (x (i))) k)] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ (l) j, i) 2

$\begin{gather*} J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \left[y^{(i)}_k \log ((h_\Theta (x^{(i)}))_k) + (1 - y^{(i)}_k)\log (1 - (h_\Theta(x^{(i)}))_k)\right] + \frac{\lambda}{2m}\sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} ( \Theta_{j,i}^{(l)})^2\end{gather*}$

第一部分是将输出层K个单元的逻辑回归代价函数进行累加，第二部分是正则化部分，类比与逻辑回归，不含偏置项的正则化。

反向传播算法

我们的目标是最小化代价函数，即 $\underset{\Theta}{min}J(\Theta)$ ，需要计算 $\frac{\partial}{\partial \Theta_{i,j}^{(l)}}J(\Theta)$
反向传播算法用来计算 $\frac{\partial}{\partial \Theta_{i,j}^{(l)}}J(\Theta)$

反复使用链式求导

这里写图片描述
$\Theta_{i,j}^{(l)}$ 表示 $l$ 层第 $j$ 个神经元连接到 $l+1$ 层第 $i$ 个神经元的权重；
$a_j^{(l)}$ 表示第 $l$ 层第 $j$ 个神经元的输出
$z_j^{(l)}$ 表示第 $l$ 层第 $j$ 个神经元的输入
$l$ 层第 $j$ 个神经元产生的误差定义为 $\delta_j^{(l)}$
对输入的一个样本，输出层代价函数

J (Θ) = 1 2 \sum j (h Θ (x) j - y j) 2 = 1 2 \sum j (a (L) j - y j) 2

$J(\Theta)=\frac{1}{2}\sum_j(h_\Theta(x)_j-y_j)^2=\frac{1}{2}\sum_j(a_j^{(L)}-y_j)^2$
输出层第

j j $j$ 个神经元的误差为

δ_{j}^{(L)} = \frac{\partial J (Θ)}{\partial a_{j}^{(L)}} \frac{\partial a_{j}^{(L)}}{\partial z_{j}^{(L)}}

$\delta_j^{(L)}=\frac{\partial J(\Theta)}{\partial a_j^{(L)}} \frac{\partial a_j^{(L)}}{\partial z_j^{(L)}}$
由后向前计算隐层产生的误差

δ (l) j = \partial J ( Θ ) \partial z ( l ) j = \sum i \partial J ( Θ ) \partial z ( l + 1 ) i \partial z ( l + 1 ) i \partial a ( l ) j \partial a ( l ) j \partial z ( l ) j = \sum i δ (l + 1) i \partial ( Θ ( l ) i j a ( l ) j ) \partial a ( l ) j h' (z (l) j) = \sum i δ (l + 1) i Θ (l) i j h (z (l) j) (1 - h (z (l) j))

$\begin{align*}\delta_j^{(l)} &=\frac{\partial J(\Theta)}{\partial z_j^{(l)}} \newline &=\sum_i \frac{\partial J(\Theta)}{\partial z_i^{(l+1)}} \frac{\partial z_i^{(l+1)}}{\partial a_j^{(l)}} \frac{\partial a_j^{(l)}}{\partial z_j^{(l)}} \newline &=\sum_i \delta_i^{(l+1)}\frac{\partial (\Theta_{ij}^{(l)}a_j^{(l)})}{\partial a_j^{(l)}}{h}'(z_j^{(l)}) \newline &=\sum_i \delta_i^{(l+1)}\Theta_{ij}^{(l)}h(z_j^{(l)})(1-h(z_j^{(l)})) \end{align*}$
权值的梯度计算

\partial J ( Θ ) \partial Θ ( l ) i j = \partial J ( Θ ) \partial z ( l + 1 ) i \partial z ( l + 1 ) i \partial Θ ( l ) i j = δ (l + 1) i a (l) j

$\frac{\partial J(\Theta)}{\partial \Theta_{ij}^{(l)}}=\frac{\partial J(\Theta)}{\partial z_i^{(l+1)}}\frac{\partial z_i^{(l+1)}}{\partial \Theta_{ij}^{(l)}}=\delta_i^{(l+1)}a_j^{(l)}$

给出一个训练集，设 $\Delta_{i,j}^{(l)}:=0, for\space all (l,i,j)$ ；
对从t=1到m的样本作如下操作：

令 $a^{(1)}:=x^{(t)}$
执行前向传播计算 $a^{(l)}, \space for \space l=2,3,4,\cdots,L$
使用实际值 $y^{(t)}$ ，计算误差 $\delta^{(L)}=a^{(L)}-y^{(t)}$
反向传递误差，计算各层的误差 $\delta^{(L-1)}, \delta^{(L-2)}, \cdots, \delta^{(2)}$

$g'(z^{(l)})=a^{(l)}.*(1-a^{(l)})$
不考虑输入层的误差
计算更新 $\Delta_{i,j}^{(l)}$

矩阵D累加所有样本的误差值得到最终的偏导数
$\partial \partial Θ ( l ) i , j J (Θ) = D (l) i j$ $\frac{\partial}{\partial \Theta_{i,j}^{(l)}}J(\Theta)=D_{ij}^{(l)}$

$D_{ij}^{(l)}$ 为 $\Theta_{ij}^{(l)}$ 的偏导数，具有相同矩阵尺寸

$\delta_j^{(l)}$ 的计算

我们简化考虑不是多类别分类的情况，即只有两种类别的情况，代价函数可以简化为
这里写图片描述
$\delta_j^{(l)}$ 是 $a_j^{(l)}$ (即第 $l$ 层第 $j$ 个神经元输出的误差)，实际上是代价函数的偏导数，即

类似于前向传播， $\delta_j^{(l)}$ 的计算由右向左传递误差 $\delta$ ,左边一层的 $\delta$ 由右面一层的 $\delta$ 乘以传递路线的权重值得到，比如计算Layer2的 $\delta_2^{(2)}$ ，由Layer3的 $\delta_1^{(3)},\delta_2^{(3)}$ f分别乘以各自的权重 $\Theta_{12}^{(2)},\Theta_{22}^{(2)}$ 再相加得到，即

δ (2) 2 = Θ (2) 12 δ (3) 1 + Θ (2) 22 δ (3) 2

$\delta_2^{(2)}=\Theta_{12}^{(2)}\delta_1^{(3)}+\Theta_{22}^{(2)}\delta_2^{(3)}$
再比如

δ (3) 2 = Θ (3) 12 δ (4) 1

$\delta_2^{(3)}=\Theta_{12}^{(3)}\delta_1^{(4)}$

梯度检验

反向传播算法在计算梯度时可能会出现错误，需要使用梯度检测来检测算法的正确性。

神经网络中的 $\Theta$ 是矩阵形式，在变成计算时通常展开成向量形式

近似计算导数这里写图片描述
$\epsilon$ 取非常小的值，比如 $\epsilon =10^{-4}$ 。当 $\epsilon$ 趋向0的时候，其实就是导数的定义。
多类别的情况，可以类似近似计算

代码计算

epsilon = 1e-4;
for i = 1:n,
  thetaPlus = theta;
  thetaPlus(i) += epsilon;
  thetaMinus = theta;
  thetaMinus(i) -= epsilon;
  gradApprox(i) = (J(thetaPlus) - J(thetaMinus))/(2*epsilon)
end;

若反向传播算法计算正确，反向传播得到的结果deltaVector与梯度检验得到的结果应大致相等，即
$gradApprox \approx deltaVector$

一旦检测完反向传播算法正确，在训练分类器之前应该关闭梯度检验。

梯度检验的计算过程非常慢，会占用大量时间。

随机初始化

在神经网络中使用权值全零的初始化，在运行反向传播时会使所有的节点反复更新相同的值
权重矩阵的初始化应该打破对称性，采用随机数进行初始化，即对每一个 $\Theta_{ij}^{(l)}$ ，有 $\Theta_{ij}^{(l)}\in [-\epsilon, \epsilon]$
代码

% If the dimensions of Theta1 is 10x11, Theta2 is 10x11 and Theta3 is 1x11.
Theta1 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;
Theta2 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;
Theta3 = rand(1,11) * (2 * INIT_EPSILON) - INIT_EPSILON;

训练神经网络的过程

只有一层隐藏层的神经网络是比较普遍的，在使用多个隐藏层的神经网络时默认的规则是每个隐藏层包含的单元数量相同，通常情况下，隐藏单元越多效果越好，但计算量也会很大。
训练过程：
1. 随机初始化权重矩阵
2. 执行前向传播算法得到 $h_\Theta(x^{(i)})$
3. 计算代价函数 $J(\Theta)$
4. 执行反向传播计算偏导数 $\frac{\partial}{\partial\Theta_{jk}^{(l)}}J(\Theta)$
5. 使用数值计算进行梯度检验，确保反向传播算法正确后关闭梯度检验
6. 使用梯度下降或其他优化方法最小化代价函数 $J(\Theta)$ ，求得最优参数 $\Theta$

首次执行前向传播(FP)和后向传播(BP)，建议采用for循环的形式对没一个样本进行FP和BP，得到 $\Delta_{ij}^{(l)}$ ,
循环完累加 $\Delta_{ij}^{(l)}$ 值，得到偏导数 $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)$
$D_{ij}^{(l)}:=\frac{1}{m}(\Delta_{ij}^{(l)}+\lambda \Theta_{ij}^{(l)}), \space if \space j \neq 0$
$D_{ij}^{(l)}:=\frac{1}{m}\Delta_{ij}^{(l)}, \space if \space j = 0$