【机器学习】神经网络详解

最新推荐文章于 2024-08-01 14:15:05 发布

齐在

最新推荐文章于 2024-08-01 14:15:05 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习机器学习进阶之路文章标签：神经网络激活函数正则化 BP算法反向传播算法

本文链接：https://blog.csdn.net/pxhdky/article/details/87858925

版权

机器学习同时被 2 个专栏收录

29 篇文章 44 订阅

订阅专栏

机器学习进阶之路

26 篇文章 16 订阅

订阅专栏

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

1. 从感知机到神经网络

在上一篇博客【机器学习】感知机原理详解当中，我们介绍了感知机，这是一种二分类的线性分类模型，只有输出层神经元进行激活函数处理，即只拥有一层功能神经元，学习能力十分有限。

将感知机扩展成为神经网络，主要从三个方面来增强表达能力：

隐藏层可以有多层；
输出层神经元可以有多个输出；
对激活函数作扩展，有sigmoid、tanh、softmax、ReLU等。

2. 基本结构

常见的神经网络结构如下图所示。其网络层可分为三类：输入层、隐藏层和输出层。

多层前馈神经网络结构图

层与层之间是全互连的，不存在同层链接，也不存在跨层链接，这样的结构通常称为“多层前馈神经网络”（前馈并不意味着网络中信号不能向后传，而是指网络拓扑结构上不存在环或回路）。

3. 误差逆传播算法

误差逆传播（error BackPropagation，简称BP，又称反向传播）算法用来更新参数，它是一个迭代学习算法，基于梯度下降策略，以目标的负梯度方向对参数进行调整。

具体的更新推导过程可以参考BP推导，这里不再描述。

4. 损失函数与激活函数

4.1 均方差损失函数+Sigmoid激活函数

Sigmoid激活函数的表达式为：
$\sigma ( z ) = \frac { 1 } { 1 + e ^ { - z } }$

函数图像如下：

当 $z$ 绝对值越来越大，函数曲线趋于平缓， $\sigma ^ { \prime } ( z )$ 越来越小。通常反向传播算法使用均方差作为损失函数，每一层向前递推都要乘以 $\sigma ^ { \prime } ( z )$ 得到梯度变化值。这意味着在大多数时候，我们的梯度变化值很小，导致我们的W,b更新到极值的速度较慢，也就是我们的算法收敛速度较慢。

4.2 使用交叉熵损失函数+Sigmoid激活函数改进DNN算法收敛速度

为了解决sigmoid激活函数和均方差损失函数导致的收敛速度慢的问题，一种解决方法时替换掉sigmoid，另一种方法是利用交叉熵损失函数来代替均方差损失函数。

二分类时每个样本的交叉熵损失函数的形式为：
$\ln a + ( 1 - y ) \ln ( 1 - a ) ]$

使用交叉熵，得到的的 $\delta ^ { l }$ 梯度表达式中没有了 $\sigma ^ { \prime } ( z )$ ，这样W和b的更新公式中也不包含 $\sigma ^ { \prime } ( z )$ ，因此避免了反向传播收敛速度慢的问题。

4.3 使用对数似然损失函数和softmax激活函数进行DNN分类输出

如果是分类问题，那么输出是一个个的类别，比如有三个类别，对应输出层有三个神经元。此时DNN分类模型要求是输出层神经元输出的值在0到1之间，同时所有输出值之和为1。

我们可以将输出层第 $i$ 个神经元的激活函数定义为如下形式：
$\frac { e ^ { z _ { i } ^ { L } } } { \sum _ { j = 1 } ^ { n _ { L } } e ^ { z _ { j } ^ { L } } }$

其中， $n_L$ 是输出层第 $L$ 层的神经元个数，或者说我们的分类问题的类别数。 $\sum _ { j = 1 } ^ { n _ { L } } e ^ { z _ { j } ^ { L } }$ 作为归一化因子保证了所有的 $a _ { i } ^ { L }$ 之和为1。

4.4 梯度爆炸梯度消失与ReLU激活函数

在DNN中，有一个梯度消失和爆炸的问题。什么是梯度爆炸和梯度消失呢？就是在反向传播的算法过程中，由于我们使用了是矩阵求导的链式法则，有一大串连乘，如果连乘的数字在每层都是小于1的，则梯度越往前乘越小，导致梯度消失，而如果连乘的数字在每层都是大于1的，则梯度越往前乘越大，导致梯度爆炸。

对于梯度爆炸，则一般可以通过调整我们DNN模型中的初始化参数得以解决。

梯度消失问题无法完美解决，一个可能部分解决梯度消失问题的办法是使用ReLU（Rectified Linear Unit，修正线性单元）激活函数，ReLU在卷积神经网络CNN中得到了广泛的应用，在CNN中梯度消失似乎不再是问题。CNN表达式为：
$\sigma ( z ) = \max ( 0 , z )$