【机器学习】三层神经网络

最新推荐文章于 2024-03-03 12:26:15 发布

AI小白入门

最新推荐文章于 2024-03-03 12:26:15 发布

阅读量1.3k

点赞数

分类专栏： AI小白入门机器学习

本文链接：https://blog.csdn.net/m0_37306360/article/details/105295938

版权

AI小白入门同时被 2 个专栏收录

53 篇文章 5 订阅

订阅专栏

机器学习

28 篇文章 0 订阅

订阅专栏

来源 | AI小白入门
作者 | 文杰
编辑 | yuquanle
原文链接

在这里插入图片描述

三层神经网络

1. 神经单元

深度学习的发展一般分为三个阶段，感知机–>三层神经网络–>深度学习（表示学习）。早先的感知机由于采用线性模型，无法解决异或问题，表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性，而引入非线性激活函数来增加模型的表示能力。三层神经网络与感知机的两点不同

1）非线性激活函数的引入，使得模型能解决非线性问题；

2）引入激活函数之后，不再会有 $0$ 损失的情况，损失函数采用对数损失，这也使得三层神经网络更像是三层多元（神经单元）逻辑回归的复合；

神经网络中每一个神经元都可以看作是一个逻辑回归模型，三层神经网络就是三层逻辑回归模型的复合，只是不像逻辑回归中只有一个神经元，一般输入层和隐藏层都是具有多个神经元，而输出层对应一个logistic回归单元或者softmax单元，或者一个线性回归模型。

这里对一些常用的非线性激活函数做一些简单的介绍（图像，性质，导数）

$sigmoid(z)=\frac{1}{1+e^{-z}},tanh(z)=\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}},relu(z)=max \left\{0,z\right \},leaky relu(z)=\left\{\begin{matrix} \alpha z,z<0\\ z ,z\geqslant 0 \end{matrix}\right.$

性质：对于以上几个非线性激活函数都可以看作是 $\left\{\begin{matrix} 0,z<0\\ 1,z\geqslant 0\end{matrix}\right.$ ，的一个近似。采用近似的一个重要原因是为了求导，早起常采用平滑的sigmoid和tanh函数，然而我们可以发现这两个函数在两端都存在导数极小的情况，这使得多层神经网络在训练时梯度消失，难以训练。而Relu函数则很好的解决两端导数极小的问题，也是解决神经网络梯度消失问题的一种方法。

导数：
$sig(z)=\!\frac{1}{1+e^{-z}},d(z)=\!-\!\frac{-e^{-z}}{(1+e^{-z})^{2}} =\!\frac{e^{-z}+1}{(1+e^{-z})^{2}}\!-\!\frac{1}{(1+e^{-z})^{2}} =\!\frac{1}{(1+e^{-z})}\!-\!\left(\frac{1}{1+e^{-z}}\right)^{2} =\!z(1-z)$

$tanh(z)=\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}} dz=\frac{\left(e^{z}+e^{-z}\right)^{2}-\left(e^{z}-e^{-z}\right)^{2}}{(e^{z}+e^{-z})^{2}} =\frac{\left(e^{z}+e^{-z}\right)-\left(e^{z}-e^{-z}\right)}{(e^{z}+e^{-z})^{2}} =1-z^{2}$

$\left\{0,z\right \} dz= \left\{0,1\right \}$

$\left\{0,z\right \} dz= \left\{\alpha,1\right \}$

2. 前向传播

前向传播是一个复合函数的过程，每一个神经元都是一个线性函数加一个非线性函数的复合，整个网络的结构如下：其中上标表示网络层，所以 $z^{[2]}$ 表示输出层。

向量形式：

矩阵形式：

其中线性函数还是 $z=w^{T}x+b$ ，不过要注意的是这里由于每一层不仅一个神经元，所以逻辑回归中的向量 $w$ 则扩展为矩阵，表示有多个神经元（也正是因为多个神经元，导致神经网络具有提取特征的能力）。非线性函数则可以有以下选择，目前来看Relu函数具有一定的优势。

其中值得注意的是矩阵的行列，深度学习常采用一列表示一个样本，所以网络中数据矩阵的大小如下：
$X=(n,m),Y=(1,m),W=(n^{(l)},n^{(l-1)}),b=(n^{(l)},1),Z=(n^{(l)},m),A=(n^{(l)},m)$
损失函数同样采用对数损失(二分类)：
$J(\theta)=\sum_{i=1}^{m}-\left ( y^{(i)}log(h_{\theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))\right) \\ \min J(\theta)$

3. 反向传播

由于神经网络是一个多层的复合函数，前向传播就是在计算复合函数，所以反向传播就是一个链式求导过程，确定所有参数的负梯度方向，采用梯度下降的方法来更行每一层网络的参数。

1）损失函数：
$\frac{\partial J(\theta)}{\partial AL}= -\left( Y \frac{1}{AL}-(1-Y) \frac{1}{(1-AL)}\right)=\frac{Y-AL}{AL(1-AL)}$
2) 激活函数：
$\frac{\partial AL}{\partial Z}= AL(1-AL) , \frac{\partial AL}{\partial Z}= 1-AL^{2} , \frac{\partial AL}{\partial Z}=\left\{\begin{matrix} 1,Z\geq 0\\ 0,Z<0 \end{matrix}\right.$
3) 线性函数：
$\frac{\partial Z}{\partial W}= \frac{1}{m}A^{(l-1)}，\frac{\partial Z}{\partial b}= \frac{1}{m},\frac{\partial Z}{\partial A^{(l-1)}}= \frac{1}{m}W^{(l)}$
对于损失函数直接对各个变量求导如下：
$\frac{\partial J(\theta)}{\partial AL}=\frac{Y-AL}{AL(1-AL)}\\ \frac{\partial J(\theta)}{\partial Z}= \frac{Y-AL}{AL(1-AL)}*(AL(1-AL))=Y-AL ,(sigmoid)\\ \frac{\partial J(\theta)}{\partial W^{(l-1)}}=\frac{1}{m}(Y-AL)A^{(l-1)^{T}}\\ \frac{\partial J(\theta)}{\partial b^{(l-1)}}=\frac{1}{m}(Y-AL)\\ \frac{\partial J(\theta)}{\partial A^{(l-1)}}=W^{T}(Y-AL)$
值得注意的是激活函数是一个数值操作，不涉及矩阵求导，线性函数中 $\frac{1}{m}$ 是因为 $w$ 是作用于 $m$ 个样本，所以在确定负梯度方向时需要 $m$ 个样本取均值，而对 $A$ 求导则不需要求均值。