神经网络和深度学习基础知识

Li Yuexi

已于 2024-12-07 13:09:42 修改

阅读量1.8k

点赞数 18

分类专栏：神经网络深度学习机器学习文章标签：深度学习机器学习神经网络

于 2023-11-23 00:38:11 首次发布

本文链接：https://blog.csdn.net/verssqsq2089/article/details/134394291

版权

神经网络同时被 3 个专栏收录

3 篇文章

订阅专栏

深度学习

2 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

深度学习基础

0 前言
1 前置知识——机器学习概述
2 深度学习概述
3 全连接神经网络
以下待更新
4 卷积神经网络
5 受限玻尔兹曼机
6 自编码器

0 前言

首先，我们需要明确几个概念之间的关系。
机器学习(Machine Learning,ML) 是人工智能(Artificial Intelligence,AI)的子集，神经网络(Neural Network,NN)是机器学习的子集，深度学习(Deep learning,DL)是神经网络的子集。如图1-1所示。

图0-1 几个概念之间的关系

人工神经网络(Artificial Neural Network,ANN)，简称神经网络，是机器学习的重要研究方向。近年来掀起了一阵深度学习浪潮，深度学习并不是一个全新的领域，从本质上说，就是神经网络。
神经网络主要分为三种类型：前馈神经网络(Feedforward Neural Network,FNN)、反馈神经网络(Feedback Neural Network)、图神经网络(Graph Neural Network,GNN)。
其中，前馈神经网络不存在反馈信号，信号从输入层向输出层单向传播。相对其它两种类型的神经网络来说更加简单，是神经网络初学者的首要研究学习的对象。
深度学习的研究对象是深度神经网络(Deep Neural Network,DNN)。
因此，本文主要讲解深度前馈神经网络(Deep Feedforward Neural Network,DFNN)。深度前馈神经网络主要包括了深度全连接神经网络(Deep Fully Connected Neural Network,DFCNN)，深度卷积神经网络(Deep Convolutional Neural Network,DCNN)、深度信念网络(Deep Belief Network,DBN)、多层自编码器(Multi-layer Autoencoder,MAE)等。
深度学习并不关心到底使用何种类型的神经网络，只要网络的层数够深，都可以成为深度学习的研究对象。至于有多少层才算深度神经网络，有一种说法认为超过三层以上的神经网络都可以叫作深度神经网络。
注：为了便于学习和查阅，仍然在各章节中纳入了浅层网络的知识，虽然严格来说它们并不在深度学习的范畴之内，但毫无疑问，浅层网络是深层网络的基础，是必须要牢牢掌握的。

1 前置知识——机器学习概述

深度学习的许多概念和算法出自于机器学习，如损失函数、正则化、优化算法、性能评价指标等概念和算法。因此，在介绍深度学习之前，不可避免地需要对机器学习的基本理论有所了解，为后续进一步学习深度学习的原理、算法和实践奠定坚实的基础。

1.1 机器学习的概念

就我看来，机器学习的一种比较合理的定义是：研究如何让计算机模型自动地从历史数据中学习得到模型参数，从而改善模型的性能，能对新数据能作出有效预测和判断的一门交叉学科。
当下我们常说的机器学习，又称统计机器学习、归纳学习，它是以统计学原理为深刻基础的。其核心内涵用一句话表示，就是 “模型从数据中学习”。
那么，根据“模型从数据中学习”，就得到了机器学习的三要素：数据、模型、算法。更确切地说，“数据”指的是训练集，“模型”指的是函数，“算法”指的是学习的过程，即模型参数从劣到优的整个变化过程。
构建一个较大的数据集以供机器学习模型从中学习，是机器学习的第一个前提条件，这个数据集就叫做训练数据集，简称训练集。为什么叫训练集呢？因为，“模型从数据中学习”的等价表述就是“用数据训练模型”。

1.2 机器学习的分类

机器学习任务按照是否已知训练集的标签，主要可分为有监督学习和无监督学习两大类。

1.2.1 有监督学习

有监督学习，又称有教师学习，它是一类已知训练样本标签的分类或者回归任务。为了解决一个模式识别任务，需要构建一个模型，要求该模型能够从有标注的训练样本中尽可能学习到数据的特征表示及其分布，即找到合适的模型参数，使得输入一个训练样本的特征，模型就能输出与该训练样本匹配的标签（事先已经给出了），并能够很好地预测新样本（测试样本）的标签。
常见的有监督学习模型有线性回归(Linear Regression, LR)、对数几率回归(Logistic Regression, LR)、决策树(Decision Tree, DT)、支持向量机(Support Vector Machine, SVM)、朴素贝叶斯(Naive Bayes, NB)、随机森林(Random Forest, RF)等。

1.2.2 无监督学习

无监督学习，又称无教师学习，常见的无监督学习问题有聚类、降维、离群点检测等。无监督学习任务的训练集中没有标签，也不需要标签。在不依靠标签的情况下，模型能学习到训练样本的特征信息和样本之间的相互关系。

1.3 机器学习的原理：三要素

在1.1中，我们已经介绍了机器学习的三要素是数据、模型和算法，下面分别详细介绍这三个要素，以此来阐明机器学习的原理。

1.3.1 数据

数据指的是训练集。
以有监督学习为例，设有一个训练集 $D$ ：

$D=\{(\bm{x}^{(1)},y^{(1)}),(\bm{x}^{(2)},y^{(2)}),\cdots,(\bm{x}^{(N)},y^{(N)})\}$
或记作：
$D=\{(\bm{x}^{(i)},y^{(i)})|i=1,2,\cdots,N\}$
其中，
$\bm{x}^{(i)}$ 是一个列向量，它表示第 $i$ 个训练样本的特征向量， $\bm{x}^{(i)}=(x^{(i)}_{1},x^{(i)}_{2},\cdots,x^{(i)}_{m})^{T}$ ，向量中的每一个分量都代表一个特征，特征的个数为 $m$ ；
$y^{(i)}$ 是一个数（也可以是向量，根据问题来定），它表示第 $i$ 个训练样本的标签(label)，也叫地面真值(ground truth,gt)；
$N$ 表示训练样本的个数；

举个例子，在有监督网站用户异常行为检测任务中，训练集的样本 $\bm{x}^{(i)}$ 当中一般会包含用户请求次数(可设定为 $x^{(i)}_{1}$ )、请求频率（ $x^{(i)}_{2}$ ）、请求方式（ $x^{(i)}_{3}$ ）、请求内容（ $x^{i}_{4}$ ）等与异常行为息息相关的特征信息， $y^{(i)}$ 的取值要么是正常（可编码为1），要么是异常（可编码为0）。
我们的任务就是要根据训练集的若干 $\bm{x}^{(i)}$ 和 $y^{(i)}$ ，学习到数据的整体分布，确定模型的参数，使得模型尽可能拟合这个分布，将来可以利用这个模型，只要给定用户的请求次数等特征信息，将其输入到模型当中，模型就能预测出用户的行为是正常还是异常，从而指导服务器，若预测结果是异常，则拒绝服务，并将用户加入黑名单；若预测结果是正常，则提供服务。

1.3.2 模型

什么是模型？通俗地讲，就是函数。什么是训练模型或者模型学习？就是依靠大量数据确定函数中的未知参数的过程。什么才是好的模型？就是确定参数后的模型针对训练集、验证集和测试集上的大多数样本都能给出正确的预测，越多越好。
形式相同，参数不同的函数的集合构成一个函数族。
函数族的一般形式是：
$\mathbf{F} =\{f(\bm{x};\bm{\omega})|\bm{\omega}\in{\Omega}\} \tag{1-1}$
其中，
$\bm{x}$ 是输入向量，与训练集中特征向量相对应；
$y$ 是输出，与训练集中的标签相对应；
$\bm{\omega}$ 是权重（参数）向量；
$\Omega$ 是所有权重（参数）向量构成的集合；

函数族 $\mathbf{F}$ 当中的一个元素就是一个函数 $f(\bm{x};\bm{\omega})$ ，也就是一个确定了参数的模型。
函数的类型主要有三类：线性函数、广义线性函数、非线性函数。
线性函数： $f(\bm{x};\bm{\omega})=\bm{\omega}^T\bm{x}+b$
广义线性函数： $f(\bm{x};\bm{\omega})=\bm{\omega}^T\Phi{(\bm{x})}+b$
其中， $\Phi(x)$ 是特征变换函数，它对原始的输入特征进行变换，从而获得更易于学习拟合的特征表示，这个过程通常被称为特征提取，对它的研究衍生出一个重要的领域，叫做特征工程(Feature Engineering)。
为什么要进行特征提取呢？因为，原始输入特征的分布规律性往往是不强的，难以用简单的模型去表示，可能是用线性模型拟合不了的。因此，选择一个好的 $\Phi(x)$ 进行特征提取，使得提取后的特征能被线性模型很好地表示，是一项非常重要的前置工作。特征提取工作的优劣，最终关系到数据是否能被简单模型表示。
在过去，尤其是在深度学习诞生之前，对于一个具体问题，机器学习研究者习惯于手工设计和定制一些特征，然后选择一个机器学习模型，用从原始特征中提取出来的定制化的特征对模型进行训练，模型的好坏从很大程度上决定于特征提取的好坏。但是，自从深度学习诞生以来，一种自动特征提取的手段应运而生，只需要构建一个深层神经网络，除最后一层外，其它的层做的都是特征提取的工作。在前几层，模型学习低级的、直观的、局部的特征表示，随着层数的加深，在后面几层，模型逐步学习组合得到高级的、抽象的、全局的特征表示，最后一层做的是模型拟合（分类或者回归）的工作。在训练阶段，将原始训练数据输入到网络中，网络既能学习如何表示特征，又能学习如何拟合特征。在测试阶段，只要给一个原始样本输入，网络就能一步到位地给出模型预测结果，不需要人工提取特征的步骤，这种特点被称为端到端(end-to-end)。
因此，深度学习也被称为表示学习(Representation Learning,RL)或者特征学习(Feature Learning,FL)，即学习如何更好地表示输入样本，学习如何提取特征。
非线性函数：例如单层感知机模型为 $f(\bm{x};\bm{\omega})=\varphi(\bm{\omega}^T\bm{x}+b)$ ， $\varphi(*)$ 是非线性激活函数，常见的激活函数有Relu、Sigmoid、tanh等。

1.3.3 算法

上面已经介绍了数据和模型，那么究竟如何实现“模型从数据中学习”呢？这就需要算法的帮助，算法的运行就是学习的过程。
我们知道，机器学习的诞生，意味着人类可以不像过去那样人工地从海量数据中归纳出一般性的知识，然后将知识原封不动地教给机器来让机器去执行（传统的显式编程范式），而意味着模型可以自动地从数据中学习知识。
然而，模型天生不知道怎么学习，它不明白学习的方法。这就需要人工设计一个学习算法，教导模型如何从数据学习，告诉模型怎么样才算学好（基于损失函数的风险函数），该朝着什么方向学习（风险函数最小化），具体采取什么样的学习策略（优化方法或优化器）。
因此，学习算法的设计过程涉及到一系列学习准则，如损失函数、经验风险（函数）、结构风险（函数）、优化器等。
学习的目的是最小化风险函数，对于这个优化问题，通常很难找到合适的解析方法（不排除某些问题可以用诸如最小二乘法的解析法直接求解得到全局最优解），求出精确的解析解，而主要采用数值优化方法（如梯度下降法等优化器）对模型权重进行迭代优化，使得所有样本损失函数值相对较小，求出较好的数值解。
总之，从损失函数衍生出来的经验风险和结构风险是模型的训练阶段的性能评价指标，衡量模型当前学习效果好坏；优化器是模型的具体学习策略，是学习算法的核心，优化器的运行过程就是模型具体的学习过程。风险最小化是学习的目的，利用优化器对模型权重进行调整是实现目的的手段。
下面分别介绍损失函数、经验风险、结构风险和优化器。
注意：本文严格区分损失函数和风险函数，损失函数只考虑1个样本，风险函数考虑全部样本。

1.3.3.1 损失函数

假设有一个训练样本 $(\bm{x},y)$ ，有一个模型 $f(\bm{x};\bm{\omega})$ ，损失函数用于衡量样本真实标签 $y$ 和样本预测值 $f(\bm{x};\bm{\omega})$ 之间的差异程度，差异程度越大，损失函数值越大，差异程度越小，损失函数值越小，记作：
$L(y,f(\bm{x};\bm{\omega})) \tag{1-2}$
若标签 $y$ 是1个数，常用的损失函数有：
平方损失函数： $L(y,f(\bm{x};\bm{\omega}))=[y-f(\bm{x};\bm{\omega})]^2$
绝对损失函数： $L(y,f(\bm{x};\bm{\omega}))=|y-f(\bm{x};\bm{\omega})|$
0-1损失函数： $L(y,f(\bm{x};\bm{\omega})) = \left\{ \begin{aligned} &1 & &y \neq f(\bm{x};\bm{\omega}) \cr &0 & &y = f(\bm{x};\bm{\omega}) \end{aligned} \right.$
若标签 $\bm{y}$ 是1个 $p$ 维向量，以平方损失函数为例，令 $\bm{\hat y}=f(\bm{x};\bm{\omega})$ ，平方损失函数可推广成：
$L(\bm{y},\bm{\hat y})=\sum_{i=1}^{p}[y_i-\hat y_i]^2$
其中，
$\bm{y}$ 是样本的真实标签向量， $y_i$ 是 $\bm{y}$ 的第 $i$ 个分量；
$\bm{\hat y}$ 是样本的预测标签向量(由模型计算给出)， $\hat y_i$ 是 $\bm{\hat y}$ 的第 $i$ 个分量；
$p$ 为 $\bm{y}$ 和 $\bm{\hat y}$ 的维数，即它们的分量的个数， $\bm{y} \in \mathbb{R}^p$ ， $\bm{\hat y} \in \mathbb{R}^p$

此时的平方损失函数，也可以叫做L2损失函数。
有时候，为了便于对L2损失函数求导，可以L2损失函数前面乘上 $\frac{1}{2}$ ，即
$L(\bm{y},\bm{\hat y})=\frac{1}{2}\sum_{i=1}^{p}[y_i-\hat y_i]^2$

为什么叫做L2损失函数呢？因为L2损失也可以用L2范数的平方来表示：
$L(\bm{y},\bm{\hat y})=\frac{1}{2}||\bm{y}-\bm{\hat y}||_2^2$
其中，
$_2$ 表示向量的L2范数，设 $\bm{a}$ 为 $T$ 维向量，则 $||\bm{a}||_2=\sqrt{\sum_{i=1}^{T}a_i^2}$

1.3.3.2 经验风险

经验风险(Experience Risk,ER)就是所有训练样本在某个模型下的损失函数值之和的平均值，其定义式为：
$R_{exp}(\bm{\omega})=\frac{1}{N}\sum_{i=1}^NL(y^{(i)},f(\bm{x}^{(i)};\bm{\omega})) \tag{1-3}$
其中，
$R_{exp}$ 表示经验风险；
$L (*)$ 表示损失函数；
$N$ 表示训练样本的总数

我们希望能实现经验风险最小化(Experience Risk Minimization,ERM)，这意味着模型更加拟合训练样本，预测得更加精准。
但这还不够，经验风险非常小，以至于模型完美拟合了训练集，但仍然有可能在测试集上表现不佳，这种现象被称为过拟合(Over-Fitting)。一个有效避免过拟合的方法就是引入正则项。

1.3.3.3 结构风险和正则化

结构风险(Structural Risk,SR)在经验风险的基础上，引入了正则化(Regularization)的思想，增加一个正则化项 $J(\bm{\omega})$ ，对模型的复杂度进行惩罚，即
$R_{str}(\bm{\omega})=R_{exp}(\bm{\omega})+\lambda J(\bm{\omega}) \tag{1-4}$
其中，
$R_{str}$ 是结构风险；
$R_{exp}$ 是经验风险；
$\lambda$ 表示正则项权重，用于衡量正则化项的影响程度，它是一个超参数，由人工指定，其值越大，正则化的程度越强，模型越简单，其值越小，正则化的程度越弱，模型越复杂；
$J(\bm{\omega})$ 是正则项，主要有L0正则项、L1正则项、L2正则项三类。以L2正则项为例， $J(\bm{\omega})=||\omega||_{2}^2$ 表示权重向量的L2范数的平方， $||\omega||_{2}^2=\sum_{i=1}^p\bm{\omega}_i^2={\bm{\omega}}_1^2+{\bm{\omega}}_2^2+\cdots+{\bm{\omega}}_p^2$ ， $p$ 为权重向量的维数;

结构风险最小化(Structural Risk Minimization,SRM)能够使得权重向量 $\bm{\omega}$ 当中的大部分元素值 $\bm{\omega}_i$ 为0或者接近于0，减少模型的项数，实现 $\bm{\omega}$ 的稀疏化，保证模型不会过于复杂。
最小化结构风险所对应的参数通常是最优参数，因此，整个学习算法的目的就是求解如下优化问题：
$\bm{\omega} = \mathop{argmin}\limits_{\bm{\omega}}\ R_{str}(\bm{\omega}) \tag{1-5}$

1.3.3.4 优化器

梯度下降法(Gradient Descent)是最常见的一种机器学习的优化器，梯度下降法一次使用整个训练数据集来计算梯度来调整模型参数，又称为批量梯度下降。多维批量梯度下降具体见 3.3.3.4 梯度下降法。

2 深度学习概述

深度学习的研究对象是深度神经网络(Deep Neural Network,DNN)。

2.1 深度学习的挑战和必备条件

由于深度神经网络的层数多、每层的神经元数量也多，连接相邻层神经元之间的参数总量也很大，这意味着深度神经网络的训练非常困难。神经网络面临一系列问题：
(1) 陷入局部最优解
神经网络的目标函数(损失函数)通常是非凸函数，该函数的最小化优化问题是非凸优化问题，并且对于很深的神经网络来说，优化目标往往容易陷入了局部极小值而无法跳出，难以达到全局最小值，这成为模型性能提升的最大瓶颈。
(2) 梯度消失和梯度爆炸
在运用BP算法训练的过程中，可能会发生梯度消失问题(Gradient Vanishing Problem)，靠前的隐藏层的学习速率（参数调整能力）要远远慢于靠后的隐藏层的学习速率，使得靠前的层的参数调整的幅度非常小，甚至发生了停止学习的现象。
同样可能会发生梯度爆炸问题(Gradient Explosion Problem)，靠前的隐藏层的学习速率（参数调整能力）要远远快于靠后的隐藏层的学习速率，越靠前梯度值越大，导致参数溢出，难以收敛到可接受的性能。
(3) 训练速度很慢
由于没有良好GPU的计算机、模型巨大、数据集巨大、调参不良、缺少高效的训练策略等诸多原因，训练一次深层神经网络可能要花费几天、几个星期，甚至几个月。
(4) 调参麻烦
在深层神经网络中，需要调节的超参数量巨大，针对不同的超参数，需要人工无数次的试验试错，才能调出好的超参数。目前，还没有严格数学证明过并且细致到每个参数具体取什么值的调参准则（至少在某种程度上还没有），大多还是经验法则。
(5) 可解释性差
很多神经网络的性能很好，可是为什么好？人们并不太清楚。因此，很多人戏称神经网络是玄学，搭网络结构、调参以及模型训练的过程是炼丹。神经网络的可解释性是当前一个亟待开拓的领域。

想要训练出好的深度学习模型，需要达成以下几个条件：

足够大的数据集
强大的算力
高效的算法
针对性的训练策略

2.2 深度学习发展简史及其前史

1943年，心理学家W·S·McCulloch和数理逻辑学家W·pitts在一篇论文[1]中首次提出了人工神经网络的概念，并基于生物神经元的生理结构建立了神经元的MP模型。
1958年，Rosenblatt发表了一篇论文《感知器：大脑中信息存储和组织的概率模型》[2]，在文中他提出了著名的感知器(Perceptron)算法，可用于解决线性可分的二分类问题。
1969年，Minsky等证明了感知器不能解决非线性可分的问题，如异或问题。自此，神经网络陷入了低潮。
1986年， Rumelhart、Hinton、Williams在《Nature》上[3]提出了反向传播算法(Backpropagation algorithm)，即BP算法，用于训练深层前馈神经网络。随后几年，BP算法遇到了梯度消失问题，网络的训练陷入局部极小值而无法取得全局极小值，神经网络再次进入低潮期。
1998年，LeCun构建了一种经典的CNN模型——LeNet网络[4]，在手写体识别问题上取得了很好的效果，但在当时没有引起太多的注意。
2006年，Hinton等在《Neural computation》上发表论文[5]，提出了深度信念网络(Deep Belief Network,DBN)。同年，Hinton和Salakhutdinov在《Science》上发表了《Reducing the dimensionality of data with neural networks》[6]，正式提出了深度学习(Deep Learning,DL)的概念。因此，2006年也被称为是深度学习元年。
2012年，Krizhevsky、Sutskever和Hinton发明了AlexNet[7]，赢得了2012年的ImageNet图像分类竞赛，掀起了深度学习的研究热潮，人们才开始真正意识到深度学习的价值。

2.3 深度学习的应用领域

深度学习是一种方法和手段，而不是任务和目的。只有将它应用到具体的模式识别任务当中，才能实现它的意义和价值。当前，深度学习的常见应用领域有计算机视觉(Computer Vision,CV)、语音处理(Speech Processing)、自然语言处理(Natural Language Processing,NLP)等。

计算机视觉
计算机视觉是计算机科学的重要研究方向，简单地说，它研究如何利用计算机对图像或者视频进行处理、分析、理解和识别。有两个组成部分：广义图像处理(Image Processing)和广义视频处理(Video Processing)。（以下如果不作特别说明，图像处理和视频处理的含义都是广义的。）
视频无非是按照一定帧速播放的图像序列，因此，图像处理是视频处理的基础。
图像处理包含了图像处理（狭义）、图像分析和图像理解。视频处理同理。
计算机视觉在图像方面的任务主要有：图像分类(Image Classification)、目标检测(Object Detection)、语义分割(Semantic Segmentation)、实例分割(Instance Segmentation)、全景分割(Panoramic Segmentation)、图像生成(Image Generation)、三维重建(Three-dimensional Reconstruction)等。
以上所列举的基本任务均为高层任务，与图像语义高度相关，传统的图像处理（狭义）主要研究底层任务，即与图像语义低相关或者无关的任务，往往是像素级别的任务，如图像增强、图像降噪、图像编码、图像压缩、边缘检测等。
视频处理的任务主要有：视频分类、视频目标检测与跟踪（如人体检测与跟踪）、视频行为识别（动作识别）、人体姿态估计（人体关键点检测）等
语音处理
语音处理，指利用计算机对语音信号进行处理、理解、分析和识别，它的具体任务主要有语音识别(Speech Recognition)（语音转文字）、语音合成(Speech Synthesis)（文字转语音）、说话人识别(Speaker Recognition)、说话人性别识别(Speaker Gender Recognition)、说话人年龄估计(Speaker Age Estimation)、语音情感识别(Speech Emotion Recognition)等。
传统的语音处理（狭义）还研究一些与语音的语义低相关或者无关的任务，如语音增强(Speech Enhancement)、语音特征提取(Speech Feature Extraction)、语音降噪(Speech Noise Reduction)、语音编码(Speech Coding)、语音压缩(Speech Compression)。
自然语言处理
自然语言处理的具体任务主要有机器翻译(Machine Translation)、命名实体识别(Named Entity Recognition)、文本分类(Text Classification)、文本预测(Text Prediction)、文本挖掘(Text Mining)等。

3 全连接神经网络

全连接神经网络(Fully Connected Neural Network,FCNN)，是一种最简单的、最常见的、最基础的前馈神经网络。除最后一层（输出层）外，全连接神经网络的每一层的每个神经元都与下一层的所有神经元相连接。
按照层数的多少划分，它包括两种形式：单层感知器(Single-Layer Perceptron,SLP)和多层感知器(Multi-Layer Perceptron,MLP)。下面分别介绍人工神经元、单层感知器、多层感知器。

3.1 人工神经元模型

3.1.1 人体神经元的生理结构

人工神经网络是人工智能联结主义学派（或称仿生学派）的一大创造。作为人工神经网络的最基本组成部分的人工神经元，是受到人体神经元的启发而诞生的，人体神经元的简要生理结构如图3-1所示。
神经元的生理结构

图3-1 人体神经元的生理结构

3.1.2 从人体神经元到人工神经元的建模过程

假设一个人体神经元有 $m$ 个树突，每个树突可以接受 $1$ 个电刺激信号，一共接受 $m$ 个电刺激信号。那么现在来建立MP模型。

将人体神经元接受的 $m$ 个外部刺激模拟为 $m$ 个输入信号 $x_i(i=1,2,...,m)$ ；
将每个树突对外部刺激的加工过程模拟为以某个权重 $\omega_i$ 同其对应的输入信号 $x_i$ 进行加权相乘，即 $w_ix_i$ ；
将细胞核的加工过程模拟为对加权后的输入信号进行求和，再加上一个偏置 $b$ ，即 $\sum_{i=1}^m\omega_ix_i+b$ ；
最后将轴突的加工过程模拟为对加权求和的结果进行非线性变换，即 $\varphi(\sum_{i=1}^m\omega_ix_i+b)$ ， $\varphi(*)$ 是一个非线性激活函数。

3.1.3 人工神经元的MP模型

1943年，心理学家W·S·McCulloch和数理逻辑学家W·pitts基于神经元的生理结构和上述建模过程，建立了单个神经元的数学模型，当时他们提出的模型叫做MP模型，MP模型是一种简单的神经元数学模型，它具有输入、计算、输出三大功能，这和函数的功能是完全一致的，如图3-2所示。

在这里插入图片描述

图3-2 神经元的MP模型

因此，单个神经元的MP模型可表示为如下的数学公式：
$\left\{ \begin{aligned} v & = \sum_{i=1}^m\omega_ix_i+b\\ y & = \varphi(v) \end{aligned} \right. \tag{3-1}$
其中，
$x_i$ 表示第 $i$ 个输入变量，即第 $i$ 个特征， $1\le i\le m$ ， $m$ 为特征的数量；
$\omega_i$ 表示第 $i$ 个权重，与 $x_i$ 相对应；
$b$ 表示偏置，也被看作是阈值；
$\varphi(*)$ 表示激活函数，它对线性加权求和的结果 $v$ 进行非线性变换；
$v$ 表示加权求和的中间结果；
$y$ 表示经过激活函数处理的最终输出结果；
令 $\bm{\omega}=(\omega_1,\omega_2,...,\omega_m)^T$ ， $\bm{x}=(x_1,x_2,...,x_m)^T$ ，可将MP模型写成向量的形式，为
$\left\{ \begin{aligned} v & = \bm{\omega}^T\bm{x}+b\\ y & = \varphi(v) \end{aligned} \right. \tag{3-2}$
合并两式，得
$y=\varphi(\bm{\omega}^T\bm{x}+b) \tag{3-3}$

3.1.4 激活函数

那么，上述激活函数 $\varphi(*)$ 到底指的是什么函数呢？有这样几种常见的激活函数：sgn、sigmoid、tanh、ReLU
(1) sgn函数
sgn函数，即符号函数，其表达式为：
$\left\{ \begin{aligned} 0 \quad x\le0 \\ 1 \quad x\gt0 \end{aligned} \right.\tag{3-4}$
图3-3为sgn函数的图像(只画出了[-10,10]区间内的图像)，由图可知该函数具有如下性质：
在这里插入图片描述

图3-3 sgn函数图像

(2) sigmoid函数

$S(x)=\frac{1}{1+e^{-x}} \tag{3-5}$
对其求导，可得：
$\begin{aligned} S'(x)&=\frac{e^{-x}}{{(1+e^{-x})}^2} \\ &=S(x)\times(1-S(x)) \tag{3-6} \end{aligned}$
图3-4为sigmoid函数的图像，由图可知该函数具有如下性质：

单调递增
$\lim\limits_{x \to -\infty}S(x)=0$ ， $\lim\limits_{x \to +\infty}S(x)=1$
$S (0) = 0.5$

图3-4 Sigmoid函数图像

(3) tanh函数
$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}\tag{3-7}$
对其求导，可得
$\begin{aligned} tanh'(x)&=1-(\frac{e^x-e^{-x}}{e^x+e^{-x}})^2\\ &=1-tanh^2(x) \tag{3-8} \end{aligned}$
图3-5为tanh函数的图像，由图可知该函数具有如下性质：

单调递增
奇函数
$\lim\limits_{x \to -\infty}tanh(x)=-1$ ， $\lim\limits_{x \to +\infty}tanh(x)=1$
$t anh (0) = 0$

在这里插入图片描述

图3-5 tanh函数图像

(4)ReLU函数
$ReLU(x)=max(0,x)\tag{3-9}$
对其求导，可得
$\left\{ \begin{aligned} 0 \quad x\lt0 \\ 1 \quad x\ge0 \end{aligned} \right.\tag{3-10}$
图3-6为ReLU函数的图像。
在这里插入图片描述

图3-6 ReLU函数图像

3.2 单层感知器

单层感知器，又称单层神经网络（单层全连接前馈神经网络），是最简单的神经网络模型。

3.2.1 单层感知器模型

3.1节已经介绍了单个神经元的MP模型，现在我们将模型拓展到多个神经元的情况，把多个MP神经元并排放在一起，它们组成了一个集合，称这个集合为输出层，集合的每一个元素称为输出层神经元。输出层神经元共享相同的输入 $x_i(i=1,2,...,m)$ ，我们将多个输入 $x_i$ 分别存储在多个神经元中，这些神经元就共同组成了输入层，将这些神经元称为输入层神经元，如此就得到了单层感知器模型。
在单层感知器中，输入层仅仅起着传递输入数据的作用，并不具有运算处理功能，而输出层具有计算功能，它能对输入数据进行加权求和与非线性变换。因此，“单层”指的就是仅有一个可计算层，即输出层。
单层感知器模型用数学公式可以表示为：
$y_k = \varphi(\sum_{i=1}^m\omega_{k,i} x_i+b_k) \tag{3-11}$
其中，
$x_{i}$ 表示第 $i$ 个输入层神经元的值（输入值）；
$\omega_{k,i}$ 表示第 $i$ 个输入层神经元连接到第 $k$ 个输出层神经元的权重；
$b_k$ 表示第 $k$ 个输出层神经元对应的偏置值；
$y_k$ 表示第 $k$ 个输出层神经元的值（输出值）；
$m$ 表示输入层神经元的个数（不包括偏置神经元）， $\le i \le m$ ；
$n$ 表示输出层神经元的个数， $\le k \le n$ ；
$\varphi(*)$ 为表示非线性激活函数。

可以用向量表示上述公式：
令 $\bm{x}=(x_1,x_2,...,x_m)^T$ ， $\bm{\omega}_k=(\omega_{k,1},\omega_{k,2},...,\omega_{k,m})^T$ ，得

$y_k = \varphi({\bm{\omega}^T_k} \bm{x}+b_k) \tag{3-12}$

进一步，令 $\bm{y}=(y_1,y_2,...,y_n)^T$ ， $\bm{b}=(b_1,b_2,...,b_n)^T$ ，
$\bm{W}=(\bm{\omega}_1,\bm{\omega}_2,...,\bm{\omega}_n)^T= \begin{bmatrix} \omega_{1,1} & \omega_{1,2} & \cdots & \omega_{1,m}\\ \omega_{2,1} & \omega_{2,2} & \cdots & \omega_{2,m}\\ \vdots & \vdots & \ddots & \vdots \\ \omega_{n,1} & \omega_{n,2} & \cdots & \omega_{n,m} \end{bmatrix}_{n \times m}$
则可以得到
$\bm{y}= \varphi(\bm{W} \bm{x}+\bm{b})\tag{3-13}$
其中， $\bm{W} \in \mathbb{R}^{n \times m}$ ， $\bm{x} \in \mathbb{R}^{m \times 1}$ ， $\bm{b} \in \mathbb{R}^{n \times 1}$ ， $\bm{y} \in \mathbb{R}^{n \times 1}$
该向量函数实现了从 $m$ 维向量 $\bm{x}$ 映射到 $n$ 维向量 $\bm{y}$

若再令 $\bm{x}^*=(\bm{x}^T,1)^T=(x_1,x_2,...,x_m,1)^T$ ，
$\bm{W}^*=(\bm{W},\bm{b})= \begin{bmatrix} \omega_{1,1} & \omega_{1,2} & \cdots & \omega_{1,m} & b_1\\ \omega_{2,1} & \omega_{2,2} & \cdots & \omega_{2,m} & b_2\\ \vdots & \vdots & \ddots & \vdots & \vdots\\ \omega_{n,1} & \omega_{n,2} & \cdots & \omega_{n,m} & b_n \end{bmatrix}_{n \times (m+1)}$
可以得到基于增广向量和增广矩阵的单层感知器模型：

$\bm{y}= \varphi(\bm{W}^* \bm{x}^*)\tag{3-14}$

单层感知器的一般结构如图3-7所示。

图3-7 单层感知器

图3-8是单层感知器的一个例子，图中的单层感知器有1个输入层和1个输出层，输入层有4个输入神经元和1个偏置神经元，输入值分别为 $x_1,x_2,x_3,x_3$ 和1，输出层有3个输出神经元，输出值分别为 $y_1,y_2,y_3$ ，输入神经元和输出神经元之间两两有边相连。
这个例子用公式可以写成：
$\hspace{1em} \left \{ \begin{aligned} & y_1= \varphi(\omega_{1,1}x_1+\omega_{1,2}x_2+\omega_{1,3}x_3+\omega_{1,4}x_4+b_1)\\ & y_2= \varphi(\omega_{2,1}x_1+\omega_{2,2}x_2+\omega_{2,3}x_3+\omega_{2,4}x_4+b_2)\\ & y_3= \varphi(\omega_{3,1}x_1+\omega_{3,2}x_2+\omega_{3,3}x_3+\omega_{3,4}x_4+b_3) \end{aligned} \right.\hspace{1em} (\operatorname{3-15})$
或者用向量和矩阵表示：
$\hspace{1em} \begin{bmatrix} y_1 \\ y_2 \\ y_3 \end{bmatrix}= \varphi( \begin{bmatrix} \omega_{1,1} &\omega_{1,2} & \omega_{1,3} & \omega_{1,4}\\ \omega_{2,1} &\omega_{2,2} & \omega_{2,3} & \omega_{2,4}\\ \omega_{3,1} &\omega_{3,2} & \omega_{3,3} & \omega_{3,4} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \\ x_4 \end{bmatrix}+ \begin{bmatrix} b_1 \\ b_2 \\ b_3 \\ \end{bmatrix})\hspace{1em} (\operatorname{3-16})$
或者简写成：
$\bm{y}=\varphi(\bm{W}\bm{x}+\bm{b})\tag{3-17}$

单层感知器的例子

图3-8 单层感知器的例子

3.2.2 感知器算法

详见 https://blog.csdn.net/verssqsq2089/article/details/130154022

3.3 多层感知器

多层感知器，又称深度神经网络或多层神经网络（多层全连接前馈神经网络）。

3.3.1 符号定义

由于多层感知器的高度复杂性，首先定义一些符号，下文统一用这些符号：

$L$ 表示神经网络的层数，包括了输入层、若干隐藏层和输出层。我们称第 $1$ 层为输入层，第 $L$ 层为输出层，介于两者之间的各层为隐藏层
$n^{(l)}$ 表示第 $l$ 层的神经元个数，不包括偏置神经元在内，下文只要提到神经元的个数，绝不要把偏置神经元算在内；
$\varphi^{(l)}(*)$ 表示第 $l$ 层的激活函数， $\varphi^{(l)}_i(*)$ 表示第 $l$ 层的第 $i$ 个神经元的激活函数，通常某一层的神经元用的是相同的激活函数，即 $\varphi^{(l)}_i(*)=\varphi^{(l)}(*)$ ；
$\bm{W}^{(l)}$ 表示第 $l$ 层连接到第 $l + 1$ 层的权重矩阵，其中， $\bm{W}^{(l)}$ 的第 $i$ 行第 $j$ 列的元素记为 $\omega^{(l)}_{i,j}$ ， $\omega^{(l)}_{i,j}$ 表示第 $l$ 层的第 $j$ 个神经元连接到第 $l + 1$ 层的第 $i$ 个神经元的权重；
$\bm{b}^{(l)}$ 表示第 $l$ 层连接到第 $l + 1$ 层的偏置向量， $b^{(l)}_i$ 表示第 $l$ 层连接到第 $l + 1$ 层的第 $i$ 个神经元的偏置；
$\bm{a}^{(l)}$ 表示第 $l$ 层的输出向量， $a^{(l)}_i$ 表示第 $l$ 层的第 $i$ 个神经元的输出；
$\bm{z}^{(l)}$ 表示第 $l$ 层的输入向量（加权求和向量），即第 $l$ 层的状态，其值等于对第 $l - 1$ 层的输出向量 $\bm{a}^{(l-1)}$ 加权求和而未激活的结果， $z^{(l)}_i$ 表示第 $l$ 层第 $i$ 个神经元的输入；
$\bm{x}$ 表示输入层的输入向量，规定 $\bm{x}=\bm{z}^{(1)}=\bm{a}^{(1)}$ ， $x_i$ 表示输入层第 $i$ 个神经元的输入；
$\bm{y}$ 表示输出层的输出向量，规定 $\bm{y}=\bm{a}^{(L)}$ ， $y_i$ 表示输出层第 $i$ 个神经元的输出。
$F (*)$ 表示整个网络函数，它是从 $n^{(1)}$ 维向量空间到 $n^{(L)}$ 维向量空间的映射，即 $F:\mathbb{R}^{n^{(1)}}\rightarrow \mathbb{R}^{n^{(L)}}$

特别规定，在第2、6、7条中， $1\le l \le L$ ；在第4、5条中， $1\le l \le L-1$ ；在第3条中， $\le l \le L$
特别规定，在第3、6、7、8、9条中， $1\le i \le n^{(l)}$ ；在第4条中， $1\le i \le n^{(l+1)}，1\le j \le n^{(l)}$ ；在第5条中， $\le i \le n^{(l+1)}$

3.3.2 前向传播过程

基于之前所学的单层感知器的知识，假设各层激活函数相同，并且规定 $\le l \le L$ ，不难得到：
$\left\{ \begin{aligned} & z^{(l)}_i=\sum_{j=1}^{n^{(l-1)}}\omega^{(l-1)}_{i,j}a^{(l-1)}_j+b^{(l-1)}_i \quad \quad \quad \quad \\ & a^{(l)}_i=\varphi(z^{(l)}_i) \end{aligned} 1 \le i \le n^{(l)} \right. \tag{3-18}$
若用向量表示，为：
$\left\{ \begin{aligned} \bm{z}^{(l)} &=\bm{W}^{(l-1)}\bm{a}^{(l-1)}+\bm{b}^{(l-1)} \\ \bm{a}^{(l)} &=\varphi(\bm{z}^{(l)}) \end{aligned} \right. \tag{3-19}$
合并两式，得：
$\bm{a}^{(l)}=\varphi(\bm{W}^{(l-1)}\bm{a}^{(l-1)}+\bm{b}^{(l-1)} )\tag{3-20}$
若将第 $1$ 层考虑在内：
$\hspace{1em} \bm{a}^{(l)}= \left\{ \begin{aligned} & \bm{x} & l=1\\ \varphi(\bm{W}^{(l-1)} & \bm{a}^{(l-1)}+\bm{b}^{(l-1)} ) & 2\le l \le L \end{aligned} \right. \hspace{1em} (\operatorname{3-21})$
多层感知器的一般结构如图3-9所示。

图3-9 多层感知器

图3-10是多层感知器的一个例子，有1个输入层、1个隐藏层和1个输出层。输入层有4个普通神经元和1个偏置神经元，输出值分别为 $a^{(1)}_1,a^{(1)}_2,a^{(1)}_3,a^{(1)}_4$ 和1；隐藏层有5个普通神经元和1个偏置神经元，输出值分别为 $a^{(2)}_1,a^{(2)}_2,a^{(2)}_3,a^{(2)}_4,a^{(2)}_5$ 和1；输出层有3个普通神经元，输出值分别为 $a^{(3)}_1,a^{(3)}_2,a^{(3)}_3$ 。

多层感知器的例子

图3-10 多层感知器的例子

针对图3-10所示的例子，我们可以得到：
输入层的前向传播公式为：
$\bm{a}^{(1)}=\bm{z}^{(1)}=\bm{x}^{(1)}\tag{3-22}$
隐藏层的前向传播公式为：

$\left\{ \begin{aligned} \bm{z}^{(2)} &=\bm{W}^{(1)}\bm{a}^{(1)}+\bm{b}^{(1)} \\ \bm{a}^{(2)} &=\varphi(\bm{z}^{(2)}) \end{aligned} \right.\tag{3-23}$
输出层的前向传播公式为：
$\left\{ \begin{aligned} \bm{z}^{(3)} &=\bm{W}^{(2)}\bm{a}^{(2)}+\bm{b}^{(2)} \\ \bm{a}^{(3)} &=\varphi(\bm{z}^{(3)}) \end{aligned} \right.\tag{3-24}$
合并式(3-22)、式(3-23)和式(3-24)，并消去 $\bm{z}$ ，得
$\left\{ \begin{aligned} & \bm{a}^{(3)}=\varphi(\bm{W}^{(2)}\bm{a}^{(2)}+\bm{b}^{(2)}) \\ & \bm{a}^{(2)}=\varphi(\bm{W}^{(1)}\bm{a}^{(1)}+\bm{b}^{(1)}) \\ & \bm{a}^{(1)}=\bm{x}^{(1)} \\ \end{aligned} \right.\tag{3-25}$
若将式(3-25)用非向量形式表达，则为：
$\hspace{1em}\left\{ \begin{aligned} & a_i^{(3)}=\varphi(\sum_{j=1}^{n^{(2)}}\omega^{(2)}_{i,j}a^{(2)}_j+b^{(2)}_i) & 1 \le i \le n^{(3)} \\ & a_i^{(2)}=\varphi(\sum_{j=1}^{n^{(1)}}\omega^{(1)}_{i,j}a^{(1)}_j+b^{(1)}_i) & 1 \le i \le n^{(2)} \\ & a_i^{(1)}=x_i^{(1)} &1 \le i \le n^{(1)}\\ \end{aligned} \right.\hspace{1em} (\operatorname{3-26})$

3.3.3 BP算法

下面要对多层感知器（多层神经网络）进行训练，即确定神经网络中的每一个权重 $\omega$ 和偏置 $b$ ，使得经验风险最小化。训练的优化算法采用1986年提出的反向传播(Backpropagation)算法，简称BP算法。BP算法是一种基于梯度下降法和误差反向传播策略的用于训练多层前馈神经网络的有效的学习算法。

3.3.3.1 训练集、损失函数和经验风险

从某个数据分布中采样得到部分数据，定义为训练集： $D=\{(\bm{x}^{(i)},\bm{y}^{(i)})|1 \le i \le N\}\sim P_{XY}$
其中，
$\bm{x}^{(i)}$ 表示第 $i$ 个训练样本的特征向量，特征向量的维数（元素个数）和神经网络输入层的神经元个数是相同的， $\bm{x}^{(i)}=(x^{(i)}_1,x^{(i)}_2,...,x^{(i)}_{n(1)})$ ，即 $\bm{x_i} \in \mathcal{X} \subset \mathbb{R}^{n^{(1)}}$ ， $\mathcal{X}$ 表示输入（特征）空间， $n^{(1)}$ 表示神经网络输入层的神经元个数；
$\bm{y}^{(i)}$ 表示第 $i$ 个训练样本的标签向量，标签向量的维数（元素个数）和神经网络输出层的神经元个数是相同的， $\bm{y}^{(i)}=(y^{(i)}_1,y^{(i)}_2,...,y^{(i)}_{n(L)})$ ，即 $\bm{y}^{(i)} \in \mathcal{Y} \subset \mathbb{R}^{n^{(L)}}$ ， $\mathcal{Y}$ 表示输出（标签）空间， $n^{(L)}$ 表示神经网络输出层的神经元个数；
$N$ 表示训练样本的个数；
$P_{XY}$ 表示输入样本特征与输出标签的联合概率分布， $X, Y$ 为它们对应的随机变量。
我们的理想主义目标是借助部分数据（训练集）还原出完整的真实数据分布，即学习一个预测函数在该分布的全部数据上实现最小的预测误差，但这是不可能的，一个切实可行的目标是在训练集和测试集上都能表现得好，提升模型的泛化能力。

单个样本的损失函数采用L2损失函数，则L2损失函数为：
$\begin{aligned} L(\bm{y},\bm{\hat y}) & =\frac{1}{2}\sum_{i=1}^{n^{(L)}}(y_i- {\hat y_i})^{2} \\ & = \frac{1}{2} ||\bm{y}-\bm{\hat y}||^2_{2}\\ &=\frac{1}{2} ||\bm{y}-F(\bm{x};\bm{W}) ||^2_{2} \tag{3-27} \end{aligned}$
其中，
$L (*)$ 表示损失函数，详见 1.3.3.1 损失函数；
$F (*)$ 表示网络函数，详见 3.3.1 符号定义；
$n^{(L)}$ 表示第 $L$ 层（输出层）神经元的个数，即网络的输出变量数，详见 3.3.1 符号定义；
$\bm{x}$ 表示某样本的特征向量， $x_i$ 表示 $\bm{x}$ 的第 $i$ 个分量；
$\bm{y}$ 表示某样本的真实标签向量，也叫地面真值(ground truth)， $y_i$ 表示 $\bm{y}$ 的第 $i$ 个分量；
$\bm{\hat y}$ 表示某样本的网络预测向量， $\hat y_i$ 表示 $\bm{\hat y}$ 的第 $i$ 个分量，损失函数用于衡量真实值和预测值之间的差距；
$\bm{W}$ 表示网络权重；
$_2$ 为向量的L2范数，假设有一个 $p$ 维向量 $\bm{a}$ ， $||\bm{a}||_2=\sqrt{\sum_{i=1}^{p}a^2_i}$

注意： $L (*)$ 和 $n^{(L)}$ 当中的 $L$ 是完全不同的两个事物，请严格区分。

基于上述损失函数，可得经验风险函数 $E(\bm{W})$ ：
$\begin{aligned} E(\bm{W}) & =\frac{1}{N}\sum_{i=1}^NL(\bm{y}^{(i)},\bm{\hat y}^{(i)})) \\ & =\frac{1}{2N}\sum_{i=1}^{N}\sum_{j=1}^{n^{(L)}}(y_j- {\hat y_j})^{2} \\ & =\frac{1}{2N}\sum_{i=1}^{N}||\bm{y}^{(i)}-\bm{\hat y}^{(i)}||_2^{2}\\ & =\frac{1}{2N}\sum_{i=1}^{N}||\bm{y}^{(i)}-F(\bm{x}^{(i)};\bm{W}) ||_2^{2} \tag{3-28} \end{aligned}$
关于经验风险，详见 1.3.3.2 经验风险。

在我们的网络中，损失函数 $L$ 也可以写成：
$\hspace{1em} L(\bm{a}^{(L)},\bm{\hat a}^{(L)}) =\frac{1}{2}\sum_{i=1}^{n^{(L)}}(a^{(L)}_i- {\hat a^{(L)}_i})^{2} \hspace{1em} (\operatorname{3-29})$

3.3.3.2 反向传播误差 $\delta^{(l)}_i$

在介绍误差反向传播之前，先引入一个概念——反向传播误差 $\delta^{(l)}_i(1 \le l \le L)$ ，它定义为：
$\delta^{(l)}_i\triangleq\frac{ \partial L}{ \partial z^{(l)}_i} \tag{3-30}$
由复合函数偏导数的链式法则可得：
$\begin{aligned} \frac{\partial{L}}{\partial \omega_{i,j}^{(l)}} &=\frac{ \partial L}{ \partial z^{(l+1)}_i} \frac{ \partial z^{(l+1)}_i}{\partial \omega_{i,j}^{(l)}} \\ \end{aligned} \tag{3-31}$
基于式(3-30)和式(3-18)，可将式(3-31)转化为：
$\frac{\partial{L}}{\partial \omega_{i,j}^{(l)}}=\delta^{(l+1)}_i a^{(l)}_j \tag{3-32}$
同理可得:
$\begin{aligned} \frac{\partial{L}}{\partial b_i^{(l)}} &=\frac{ \partial L}{ \partial z^{(l+1)}_i} \frac{ \partial z^{(l+1)}_i}{\partial b_i^{(l)}} \\ &=\delta^{(l+1)}_i \end{aligned} \tag{3-33}$
$a^{(l)}_j$ 在前向传播过程中就已经算出来了，因此，我们只需要算出 $\delta^{(l+1)}_i$ ，代入式(3-32)和式(3-33)当中，就能算出 $\frac{\partial{L}}{\partial \omega_{i,j}^{(l)}}$ 和 $\frac{\partial{L}}{\partial b_i^{(l)}}$ ，紧接就能更新各个权重，问题也就迎刃而解了。
下面我们考虑如何计算各层的 $\delta^{(l+1)}_i$ 。

3.3.3.3 误差反向传播策略

首先，我们要计算输出层各神经元的反向传播误差 $\delta^{(L)}_i(1 \le i\le n^{(L)})$ :
$\begin{aligned} \delta^{(L)}_i &= \frac{\partial L}{\partial z^{(L)}_i} &(\operatorname{3-34}\operatorname{-1})\\ &=\frac{\partial L}{\partial a^{(L)}_i}\frac{\partial a^{(L)}_i}{\partial z^{(L)}_i} &(\operatorname{3-34}\operatorname{-2})\\ &= (a^{(L)}_i-\hat a^{(L)}_i)\cdot \varphi'(z^{(L)}_i) &(\operatorname{3-34}\operatorname{-3}) \end{aligned}$
其中，
式(3-34-1) 由 $\delta^{(l)}_i$ 的定义式(3-30)所得
式(3-34-2) 基于复合函数求导的链式法则
式(3-34-3) 的第1项基于式(3-29)，第2项基于式(3-18)

然后，我们考虑一般情况，即计算除输出层外的各层的各神经元的反向传播误差 $\delta^{(l)}_i(1 \le l \le L-1,1 \le i \le n^{(l)})$ :
$\begin{aligned} \delta^{(l)}_i &= \frac{\partial L}{\partial z^{(l)}_i} &(\operatorname{3-35}\operatorname{-1})\\ &=\sum_{j=1}^{n^{(l+1)}}\frac{\partial L}{\partial z^{(l+1)}_j}\frac{\partial z^{(l+1)}_j}{\partial a^{(l)}_i}\frac{\partial a^{(l)}_i}{\partial z^{(l)}_i} & (\operatorname{3-35}\operatorname{-2})\\ &= \sum_{j=1}^{n^{(l+1)}}\delta^{(l+1)}_j \cdot \omega_{j,i}^{(l)} \cdot \varphi'(z_i^{(l)}) &(\operatorname{3-35}\operatorname{-3}) \end{aligned}$
可以发现，第 $l$ 层的 $\delta^{(l)}_i$ 可以用多个第 $l + 1$ 层的 $\delta^{(l+1)}_j(1 \le j \le n^{(l+1)})$ 表示，前面我们已经计算出了 $\delta^{(L)}_i$ ，因此，从输出层开始，不断一层一层向前迭代计算 $\delta^{(l)}_i$ ，直到输入层，我们能算出所有的 $\delta^{(l)}_i$ ，从而能算出所有的 $\frac{\partial{L}}{\partial \omega_{i,j}^{(l)}}$ 和 $\frac{\partial{L}}{\partial b_i^{(l)}}$ ，然后我们就能对权重进行更新，这就完成了一次反向传播过程。
此外，如果激活函数 $\varphi(*)$ 选择sigmoid函数，因为我们知道 $S^{'} (x) = S (x) (1 - S (x))$ ，那么式(3-34-3)和式(3-35-3)能进一步简化为：
$\hspace{1em} \left \{ \begin{aligned} & \delta^{(L)}_i=(a^{(L)}_i-\hat a^{(L)}_i)\cdot a_i^{(L)} \cdot (1-a_i^{(L)}) \quad \quad \quad 1 \le i \le n^{(L)}\\ & \delta^{(l)}_i= \sum_{j=1}^{n^{(l+1)}}\delta^{(l+1)}_j \cdot \omega_{j,i}^{(l)} \cdot a_i^{l} \cdot (1-a_i^{(l)}) \quad \quad \quad 1 \le l \le L-1,1 \le i \le n^{(l)} \end{aligned} \hspace{1em} (\operatorname{3-36}) \right.$

3.3.3.4 梯度下降法

因为，我们已经计算出了每一层的反向传播误差 $\delta^{(l)}_i$ ，所以立刻能计算出单个样本的损失函数对权重的偏导数，将 $\delta^{(l+1)}_i$ 代入下式即可：

$\left \{ \begin{aligned} & \frac{\partial{L}}{\partial \omega_{i,j}^{(l)}}=\delta^{(l+1)}_i a^{(l)}_j \\ & \frac{\partial{L}}{\partial b_i^{(l)}} =\delta^{(l+1)}_i \end{aligned} \tag{3-37} \right .$
接着对其它样本的损失函数进行相同的求偏导操作，然后将它们加起来，即对式(3-28)两边分别对 $\omega_{i,j}^{(l)}$ 和 $b_i^{(l)}$ 求偏导：
$\left \{ \begin{aligned} \frac{\partial{E}}{\partial \omega_{i,j}^{(l)}}=\frac{1}{N}\sum_{k=1}^{N}\frac{\partial{L_k}}{\partial \omega_{i,j}^{(l)}} \\ \frac{\partial{E}}{\partial b_i^{(l)}}=\frac{1}{N}\sum_{k=1}^{N}\frac{\partial{L_k}}{\partial b_i^{(l)}} \tag{3-38} \end{aligned} \right.$
其中，
$L_k$ 为第 $k$ 个样本的损失函数， $L_k=L(\bm{y}^{(k)},\bm{\hat y}^{(k)})$ ；
$E$ 为经验风险函数;
$N$ 为训练样本总数

根据式(3-38)的计算结果，就能得到一次训练的所有网络权重变化量 $\Delta \omega_{i,j}^{(l)}$ 和偏置变化量 $\Delta b_i^{(l)}$ ：
$\left \{ \begin{aligned} & \Delta \omega_{i,j}^{(l)}=-\eta \cdot \frac{\partial{E}}{\partial \omega_{i,j}^{(l)}} \\ & \Delta b_i^{(l)}=-\eta \cdot \frac{\partial{E}}{\partial b_i^{(l)}} \end{aligned} \right. \tag{3-39}$
其中， $\eta$ 为学习率，决定权重调整的幅度大小。
若将它们展开，也可以写成：
$(\Delta \omega_{1,1}^{(1)},...,\Delta \omega_{1,1}^{(2)},...,\Delta \omega_{1,1}^{(L-1)},...,\Delta b_1^{(1)},...,\Delta b_1^{(2)},...,\Delta b_1^{(L-1)}) \\ =-\eta( \frac{\partial{E}}{\partial \omega_{1,1}^{(1)}},...,\frac{\partial{E}}{\partial \omega_{1,1}^{(2)}},...,\frac{\partial{E}}{\partial \omega_{1,1}^{(L-1)}},...,\frac{\partial{E}}{\partial b_1^{(1)}},...,\frac{\partial{E}}{\partial b_1^{(2)}},...,\frac{\partial{E}}{\partial b_1^{(L-1)}}) \hspace{1em} (\operatorname{3-40})$

最后对权重进行更新：
$\left \{ \begin{aligned} & \omega_{i,j}^{(l)}(新) = \omega_{i,j}^{(l)}(旧)+\Delta \omega_{i,j}^{(l)} \\ & b_i^{(l)}(新) = b_i^{(l)}(旧)+\Delta b_i^{(l)} \end{aligned} \right . \tag{3-41}$
这就成功完成了一轮(epoch)学习，在实际应用中，需要重复多轮学习，才能使得经验风险降至可接受的范围以内。

以下待更新

4 卷积神经网络

5 受限玻尔兹曼机

6 自编码器

参考文献：

[1] McCulloch W S, Pitts W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5: 115-133.
[2] Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain[J]. Psychological review, 1958, 65(6): 386.
[3] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. nature, 1986, 323(6088): 533-536.
[4] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[5] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
[6] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. science, 2006, 313(5786): 504-507.
[7] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25.

参考书籍

1、人工智能杨清平北京航空航天大学出版社
2、机器学习赵卫东董亮人民邮电出版社
3、机器学习基础——原理、算法与实践袁梅宇清华大学出版社
4、人工智能(第2版) 作者：[美]史蒂芬·卢奇(Stephen Lucci)、丹尼·科佩克(Danny Kopec) 译者：林赐人民邮电出版社
5、深度学习的数学作者：[日]涌井良幸、涌井贞美译者：杨瑞龙人民邮电出版社
6、深度学习作者:[美] 伊恩·古德费洛、[加] 约书亚·本吉奥、[加] 亚伦·库维尔译者：赵申剑等人民邮电出版社