一文让你搞懂神经网络的基本原理推导

最新推荐文章于 2023-06-15 15:25:15 发布

佐手jth

最新推荐文章于 2023-06-15 15:25:15 发布

阅读量683

点赞数 1

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/qq_22063661/article/details/79135205

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

浅层神经网络

本篇从一个具有一个隐藏层的神经网络开始，初步了解神经网络的基本概念与工作机制，如图1所示。
　　这里写图片描述
　　下面，我们将对神经网络的各个部分做以说明。
　　输入层：对于每一个输入样本，它的维度决定了输入层有几个神经元，使用下标 $i$ 表示维度值，如 $x_1,x_2,x_3,\dots$ 。同时，由于具有多个样本，我们使用上标 $(i)$ 表示它是第 $i$ 个样本。所有的 $m$ 个特征样本可以记作一个矩阵 $X$ ， $X=\{x^{(1)},x^{(2)},\dots,x^{(m)}\}$ 。
　　隐藏层：隐藏层包含着神经网络所需要训练的参数 $W$ 和 $b$ ，以及主要的神经网络的结构。每一层神经元的个数以及隐藏层的层数要根据具体的问题进行设计。使用上标 $[i]$ 表示这是第 $i$ 个隐藏层，下标 $j$ 表示是该层的第 $j$ 个神经元。
　　输出层：对于分类问题来说，输出集 $y$ 是一个由有限的自然数组成的集合， $y=\{0,1,2,\dots,k-1\}$ 。例如对于垃圾邮件识别，就是一个典型的二元分类问题，可以用0表示垃圾邮件，1表示非垃圾邮件。
　　神经网络分为两个过程：前向传播和后向传播。我们以分类问题为例，初步描述神经网络的工作机制。

前向传播过程

对于一个已经训练好参数的神经网络，我们需要根据我们已知的特征集，来对它的类别进行预测。对于每一个单独的神经元与每个样本，它的前向传播过程与逻辑回归算法类似：

$z^{[1]}=W^{[1]}x+b^{[1]}$
$a^{[1]}=\sigma{(z^{[1]})}$
$z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}$
$\hat{y}=a^{[2]}=\sigma(z^{[2]})$

以上过程是在一个训练样本上进行的一次训练。为了尽量加快运算的速度，Python采用了SIMD（单指令多数据）技术，利用向量化方法，将所有的数据一次并行处理。

$Z^{[1]}=W^{[1]}X+b^{[1]}$
$A^{[1]}=\sigma(Z^{[1]})$
$Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$
$A^{[2]}=\sigma(Z^{[2]})=\hat{Y}$

注意，这里的偏置 $b^{[1]}$ 和 $b^{[2]}$ 与单样本不同，是一个向量。

后向传播过程

对于初始建立的神经网络，我们使用后向传播过程进行参数的调优。后向传播基于梯度下降法，计算代价函数关于参数的（偏）导数。

$dZ^{[2]}=A^{[2]}-Y$
$dW^{[2]}=\frac{1}{m}dZ^{[2]}(A^{[1]})^T$
$db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdim=True)$
$dZ^{[1]}=(W^{[2]})^TdZ^{[2]}*g^{'[1]}(Z^{[1]})$
$dW^{[1]}=\frac{1}{m}dZ^{[1]}X^T$
$db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdim=True)$
$W^{[1]}=W^{[1]}-\alpha_1\times dW^{[1]}$
$b^{[1]}=b^{[1]}-\alpha_1\times db^{[1]}$
$W^{[2]}=W^{[2]}-\alpha_2\times dW^{[2]}$
$b^{[2]}=b^{[2]}-\alpha_2\times db^{[2]}$

常用激活函数及其选择

sigmoid函数
　　 $\sigma(z)=\frac{1}{1+e^{-z}},z\in\mathbb{R}$ ，值域是 $(0, 1)$ 。它与它的导数对应的图像如图2：
　　
　　其中，蓝色曲线为sigmoid函数，橙色曲线为它的导数。该激活函数主要在早期用于神经网络，现在一般仅用于二分问题的最后一层。它的缺点在于当 $z$ 的值过大或过小时，导数趋于0，使得梯度下降的速度太慢。
tanh函数
　　 $a=\tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}},z\in\mathbb{R}$ ，值域是 $(- 1, 1)$ 。它的图像与sigmoid函数图像类似，但是它的值域中心点位于0处，这使得它的性能总是比sigmoid函数要好。但是，它的问题与sigmoid函数相同，在于当 $z$ 的值过大或过小时，导数趋于0，使得梯度下降的速度太慢，如图3所示。
　　
relu与带泄露的relu函数
　　 $a = relu(z)=\max\{0,z\}$ ，这是目前神经网络中最常使用的激活函数。它既引入了一定的非线性因素，也避免了 $z$ 过大或过小时出现的饱和现象，如图4所示。
　　
　　relu函数还有一些变种。例如，考虑在 $z < 0$ 的区域里加入少许的"泄露"，使得它不完全等于0。这时 $relu(z)=\max\{\alpha z,z\}$ ，如图5所示。

随机初始化参数

在逻辑回归中，我们也许不需要对初始化值做出特定的约束。而在神经网络中，我们必须随即地初始化这些参数，特别是权重矩阵 $W$ ，否则，每一个神经元都将会计算出同样的结果。我们以一个简单的例子说明一下，神经网络如下图所示。
这里写图片描述
　　现在初始化 $W^{[1]}=\left[\begin{matrix}0 & 0\\ 0 & 0\end{matrix}\right]$ ， $b^{[1]}=0$ 。那么：