机器学习(5.神经网络)

最新推荐文章于 2023-12-24 06:38:05 发布

近风臾

最新推荐文章于 2023-12-24 06:38:05 发布

阅读量196

点赞数

文章标签：机器学习神经网络人工智能

本文链接：https://blog.csdn.net/2301_76473891/article/details/133611910

版权

五.神经网络

在这里插入图片描述

1.M-P神经元模型

在这里插入图片描述

M-P神经元(一个用来模拟生物行为的数学模型):神经元接收到来自n个其他神经元传递过来的"输入信号"{ $x_1,x_2,...,x_n$ }，输入信号通过带权重{ $w_1,w_2,...,w_n$ }进行加权和，神经元接收到的总输入值减去神经元的"阈值" $\theta$ ，然后通过"激活函数"(activation function) $f (\cdot)$ 处理以产生神经元输出 $y$ 。

单个M‑P神经元：感知机（阶跃函数sgn作激活函数）、对数几率回归（sigmoid作激活函数）
多个M‑P神经元：神经网络。

2.感知机(Perceptron)—分类模型

2.1模型

感知机(Perceptron): 由两层神经元组成。输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称"阈值逻辑单元"(threshold logic unit)。

感知机可以实现逻辑与、或、非运算以及以及一些其他简单的线性分类任务

2.1.1数学表示

感知机模型: 激活函数为sgn （阶跃函数）的神经元

$\begin{aligned} y = sgn(\mathbf w^T\mathbf x−θ)= \left\{ \begin{array}{ll} 1, & \mathbf w^T\mathbf x−θ ≥0\\ 0, & \mathbf w^T\mathbf x−θ <0 \end{array} \right. \end{aligned}$

其中， $x∈\mathbb R^n$ 为样本的特征向量，是感知机模型的输入， $\mathbf w,\theta$ 是感知机模型的参数， $w$ 为权重， $\theta$ 为阈值。

2.1.2几何理解

感知机模型: 从几何角度来说，给定一个线性可分的数据集 $T$ ，感知机的学习目标是求得能对数据集 $T$ 中的正负样本完全正确划分的超平面，其中** $\mathbf w^T\mathbf x−θ$ 即为超平面方程**。

注:

什么是线性可分的数据集？

什么是超平面？

N维线性空间的超平面的维度为N-1，且一定经过原点。可以把线性空间分成不相交的两部分。

比如：

n维空间的超平面 $\mathbf w^T\mathbf x−θ=0,\mathbf w,\mathbf x\in \mathbb R^n$ 的性质：

超平面方程不唯一

当 $\mathbf w^T\mathbf x−θ=0$ 左右两边同乘以一个常数λ，方程改变，但仍为数据集超平面；

此外，如下图所示，黄色线和蓝色线都可以将正负例区分开。

法向量 $w$ 垂直于超平面

蓝色线为超平面 $x_1+x_2-1=0$ ，黄色向量为该超平面的 $w$ 。

法向量 $w$ 和位移项 $\theta$ 确定一个唯一超平面

$w$ 决定超平面的转向， $\theta$ 决定超平面距离原点的距离。

法向量 $w$ 指向的那一半空间为正空间，另一半为负空间

2.2策略

感知机的学习策略:

1.首先将随机初始化 $\mathbf w,θ$

2.将全体训练样本 $T$ 代入模型找出误分类样本,假设此时误分类样本集合为 $M\subseteq T$

3.对任意一个误分类样本 $(\mathbf x,y)\in M$ 来说

当 $\mathbf w^T\mathbf x−θ≥0$ 时，模型输出值为 $\hat y=1$ ，样本真实标记 $y = 0$ ；
反之，当 $\mathbf w^T\mathbf x−θ<0$ 时，模型输出值为 $\hat y=0$ ，样本真实标记为 $y = 1$ 。

那么以下的公式在上两种情形中恒成立： $(\hat y-y)(\mathbf w^T\mathbf x−θ)≥0$

进一步，对于数据集 $T$ ，可以定义损失函数为： $L(\mathbf w, θ)=\sum_{x\in M}(\hat y-y)(\mathbf w^T\mathbf x−θ)$

显然此损失函数是非负的。如果没有误分类点，损失函数值是 0。而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。因此，给定数据集 $T$ ，损失函数 $L(\mathbf w, θ)$ 是关于 $\mathbf w, θ$ 的连续可导函数。

原因:这样定义损失函数的原因是为了使得感知机在训练过程中朝着正确的方向调整权重和阈值，使得被错分的样本点到超平面的距离尽可能小。最终的目标是找到一个能够将正类别和负类别样本正确划分的超平面。

给定训练集 $T$ ，权重 $\mathbf w =\{w_1,w_2,...,w_n\}$ 以及阈值 $\theta$ 可以通过学习得到.

2.3 算法

在这里插入图片描述

$η\in(0,1)$ 为学习率控制着算法每一轮迭代中的更新步长，若太大则容易振荡，太小则收敛速度又会过慢，常设置为 $η = 0.1$ 。

损失函数的全局最小值是唯一的，但使得损失函数达到最小的 $\mathbf w$ （此时的 $\mathbf w$ 已经包括了阈值 $\theta$ ）不唯一，参照前面超平面不唯一的解释。

3.神经网路

感知机（单层功能神经元）只能分类线性可分的数据集，要解决非线性可分问题，可以用多层功能神经元。

神经网络(多层功能神经元):用于解决各种任务，包括分类、回归、图像处理、自然语言处理等,而且不需要复杂的特
征工程。

神经网络存在的问题

1.面对一个具体场景，神经网络该做多深？多宽？

没有理论支撑，只能依靠实验。

2.面对一个具体场景，神经网络的结构该如何设计才最合理？

比如对于图像结构的数据CNN表现更好，而序列结构的数据（如文本）RNN更好。

3.面对一个具体场景，神经网络的输出结果该如何解释？

神经网络的可解释性。

3.1多层前馈神经网络(multi-layer feedforward neural networks)

3.1.1模型

多层网络：包含隐层的网络

前馈网络：神经元之间不存在同层连接也不存在跨层连接

”前馈“指的是网络拓扑结构上不存在环或回路，而不是信号不能反向传播。

多层前馈神经网洛:每层神经元与下一层神经元全部互相连接（全连接），神经元之间不存在同层连接，也不存在跨层连接。

在这里插入图片描述

因为输入层神经元仅仅接受输入，而不进行函数处理，隐层与输出层才包含功能神经元，因此上图(a)称为”单隐层网络“。

通用近似定理

只需一个包含足够多神经元的隐层，多层前馈网络（最经典的神经网络之一）就能以任意精度逼近任意复杂度的连续函数。

3.1.2策略

分类与回归的损失函数

在这里插入图片描述

3.1.3算法

在这里插入图片描述

BP算法（误差逆传播error BackPropagation）

BP是一个迭代学习算法，在迭代的每一轮中对任意参数 $v$ 采用以下更新估计式： $v\leftarrow v+\nabla v$

算法流程:

标准BP算法演算示例:

假设现在有一个单隐层网络（下图），其隐藏层中的激活函数全为sigmoid函数，且当前要完成的任务为一个（多输出）回归任务，因此损失函数可以采用均方误差。

对于某个训练样本 $(\mathbf x_k,\mathbf y_k)$ ，其中 $\mathbf y_k=(y_1^k,y_2^k,...,y_l^k)$ ，则假设该网络输出为 $\mathbf {\hat y_k}=(\hat y_1^k,\hat y_2^k,...,\hat y_l^k)$ ，则该样本的**均方误差（损失）**为：

$E_k=\frac {1}{2}\sum_{j=1}^l (\hat y _j^k-y_j^k)^2$

对以上图中单隐层网络进行标准BP算法的演示：总共需要求解输入层到隐藏层的连接权重 $\mathbf v$ 和阈值 $\mathbf γ$ ,隐藏层到输出层的连接权重 $\mathbf w$ 和阈值 $\mathbf w$ 。

1.以 $\mathbf v$ 中的 $v_{ih}$ 为例

$v_{ih}$ 通过影响第ℎ个隐层神经元的输入值 $α_h$ ，再影响到其输出值 $b_h$ ，然后进一步影响到输出层神经元所有的（由于全连接）输入值 ${β_1,β_2...,β_l\}$ ，再影响到其输出值 $\{\hat y_1^k,\hat y_2^k...,\hat y_l^k\}$ ，最后影响到 $E_k$ ，根据”链式法则“则有：

则：

可得：

2.以 $\mathbf θ$ 中的 $θ_{j}$ 为例

则：

3.以 $\mathbf γ$ 中的 $γ_{h}$ 为例

可得：

4.以 $\mathbf w$ 中的 $w_{hj}$ 为例

可得：

标准BP算法缺点

标准BP算法每次更新只针对单个样例 $E_k$ ，参数更新得非常频繁；
对不同样例进行更新的效果可能出现"抵消"现象；
为了达到同样的累积误差极小点，往往需进行更多次数的迭代。

累积BP算法

累积BP算法直接最小化训练集 $T$ 上的累计误差： $E=\frac{1}{m}\sum_{k=1}^mE_k$ , 在**读取整个训练集一遍后(“一轮”(one round/one epoch))**才对参数进行更新，其参数更新的频率低得多；但在很多任务中，累积误差下降到一定程度之后，进一步下降会非常缓慢，这时标准BP往往会更快获得较好的解，尤其是在训练集非常大时更明显。

3.1.4缓解神经网络的过拟合问题

在这里插入图片描述

早停(early stopping)

将数据分成训练集和验证集，训练、集用来计算梯度、更新连权和阈值。验证集用来估计误差，若训练集误差降低，但验证集误差升高则停止训练，同时返回具有最小验证集误差的连接权和阈值。
正则化(regularization)

在误差目标函数中增加一个用于描述网络复杂度的部分，

在这里插入图片描述

其中 $λ\in(0,1)$ 用于对经验误差与网络复杂度这两项进行折中，通常通过交叉验证法来估计。

3.1.5 参数寻优(全局最小与局部最小)

如何跳出局部最小，进一步接近全局最小?

大多是启发式算法：

多组不同参数初始化多个神经网络

取其中误差最小的解作为最终参数。从不同初始点开始搜索可能陷入不同的局部最小，从中选取更接近全局最小的结果。
模拟退火

在每一步都以一定概率接受比当前解更差的结果，从而有助于”跳出“局部极小（也有可能”跳出“全局最小），每次迭代接受”次优解“的概率随时间/迭代次数逐渐降低。
随机梯度下降

与标准梯度下降法精确计算梯度不同，随机梯度下降法在计算梯度时加入了随机因素。即便陷入局部极小点，它计算出的梯度仍可能不为零，有机会跳出局部极小继续搜索。

3.2 其他几种特别常见的神经网路

3.2.1 RBF(径向基函数，Radial Basis Function)网络

RBF网络：

神经网络基础知识：

RBF网络是一种单隐层前馈神经网络。

神经元类型：

RBF网络包括三种不同类型的神经元，这些神经元在不同层次上执行不同的任务。
输入层神经元：接受原始输入数据。
隐藏层神经元：使用径向基函数作为激活函数，对输入数据进行特征变换。
输出层神经元：输出层是对隐层神经元输出的线性组合,产生最终的输出结果。

径向基函数：

了解径向基函数，它是RBF网络中的关键组件。
高斯函数通常用于表示径向基函数，其公式为: $\phi(r) = e^{-\frac{{\|x - c\|^2}}{{2\sigma^2}}}$ 。
x是输入数据，c 是与隐藏层神经元相关联的中心点， $\sigma$ 是控制函数宽度的参数。

训练过程：

两步训练RBF网络：

确定神经元中心 $\mathbf c_i$ 常用的方式包括随机采样、聚类等;
利用BP算法等来确定参数 $w_i$ 和 $β_i$ .

描述RBF网络的训练过程，包括以下步骤：

初始化隐藏层的中心点（c）和宽度（ $\sigma$ ）参数。
使用输入数据计算隐藏层神经元的输出，这些输出作为新的特征。
使用新特征训练输出层神经元，通常采用线性回归或其他适当的方法。
可以使用不同的训练算法，如最小二乘法或梯度下降，来优化参数。

应用领域：

介绍RBF网络在哪些应用领域有广泛应用，如模式识别、函数逼近、时间序列预测和数据分类等。

优点和缺点：

讨论RBF网络的优点和缺点。
优点包括强大的非线性建模能力和在高维数据空间中的效率。
缺点可能包括复杂的训练和调整过程，以及在处理大规模数据集时的计算成本问题。

总之，RBF网络是一种特殊类型的神经网络，其核心特点是使用径向基函数作为隐藏层神经元的激活函数，适用于多种任务，并在处理非线性问题时表现出色。理解RBF网络的结构和训练过程对于在实际应用中使用它们非常重要。

3.2.2 ART(自适应谐振理论,Adaptive Resonance Theory)网络

一种基于竞争型学习(competitive learning)策略的网络。

竞争型学习是神经网络中一种常用的无监督学习策略，在使用该策略时，网络的输出神经元相互竞争，每一时刻仅有一个竞争获胜的神经元被激活，其他神经元的状态被抑制。亦称"胜者通吃"(winner-take-all)原则。

可进行增量学习(incremental learning)或在线学习(online learning)。

神经网络基础知识：
了解神经网络的基本概念，包括神经元、权重、激活函数等。

ART网络的基本组成：
ART网络主要包括两个重要的组成部分：
F1层（输入层）：接受外部输入，并将其传递给F2层。
F2层（识别层）：负责对输入模式进行模式识别，并保持稳定的响应。

ART网络的自适应特性：
ART网络具有自适应性，可以动态地调整以适应不同的输入模式。这使得网络可以在不同的环境和任务中保持稳定的性能。

谐振（Resonance）的概念：
ART网络中的“谐振”指的是F2层的神经元对特定输入模式的响应和保持。

阈值参数：
ART网络中有一个重要的参数，即阈值参数，它控制了网络响应的灵敏度。阈值越低，网络对新模式的适应性越强，但可能会导致过度适应。

学习算法：
描述ART网络的学习算法，通常包括以下步骤：
输入模式通过F1层传递到F2层。
F2层的神经元将与输入模式最匹配的模式进行谐振。
如果匹配程度超过阈值，网络保持响应并更新权重以加强对该模式的识别能力。
如果匹配程度低于阈值，网络创建一个新的模式节点以适应新的输入模式。

应用领域：
介绍ART网络在哪些应用领域有广泛应用，如模式识别、图像处理、聚类等。

优点和缺点：
讨论ART网络的优点和缺点，如高鲁棒性、稳定性以及可能存在的计算复杂性等。

3.2.3 SOM(自组织映射，Self-Organizing Map)网络

一种竞争学习型的无监督神经网络，能将高维输入数据映射到低维空间(通常为二维)，同时保持输入数据在高维空间的拓扑结构，即，将高维空间中相似的样本点映射到网络输出层中的邻近神经元。

自组织映射（Self-Organizing Map，SOM）网络是一种无监督学习的神经网络模型. SOM的训练目标就是为每个输出层神经元找到合适的权向量，以达到保持拓扑结构的目的。

在这里插入图片描述

自组织映射（Self-Organizing Map，SOM）网络是一种无监督学习的神经网络模型，用于降维、聚类、可视化和特征提取等任务。

神经网络基础知识：
了解神经网络的基本概念，包括神经元、权重、激活函数等。

SOM网络的基本组成：
SOM网络主要包括以下几个核心组件：
神经元网格：通常是二维的，由一个或多个神经元组成。
输入数据：SOM网络的目标是对输入数据进行无监督学习。
权重向量：每个神经元都有一个与之关联的权重向量，用来表示其在输入空间中的位置。

竞争学习：
SOM网络采用竞争学习的机制，这意味着在训练过程中神经元之间竞争以获得对输入数据的响应。
学习率：SOM网络中有一个学习率参数，它控制了权重调整的速度。

拓扑映射：
SOM网络通过权重向量的拓扑映射，将输入数据映射到神经元网格上的拓扑结构。
通常，SOM的邻域关系是由一个衰减函数来控制的，以确保在训练过程中相邻神经元的权重调整更为相似。

训练过程：
描述SOM网络的训练过程，通常包括以下步骤：
随机初始化神经元的权重向量。
遍历输入数据集，并找到在神经元网格上的最佳匹配神经元（获胜者）。
根据获胜者神经元和其邻域内的神经元来调整权重向量。
逐渐减小学习率和邻域函数的参数，以便在训练过程中逐渐降低网络的变动性。

应用领域：
介绍SOM网络在哪些应用领域有广泛应用，如数据可视化、聚类、特征提取、降维等。

优点和缺点：
讨论SOM网络的优点和缺点，如无监督学习、能够保留输入数据的拓扑结构、计算效率等。

总的来说，SOM网络是一种强大的无监督学习工具，通过竞争学习和权重调整，能够有效地将输入数据映射到低维拓扑结构中，适用于多种数据分析和可视化任务。理解SOM网络的结构和训练机制对于在实际应用中使用它们非常重要。

3.2.4 结构自适应网络

结构自适应网络则将网络结构也当作学习的目标之一，并希望能在训练过程中找到最利合数据特点的网络结构。级联相关(Cascade-Correlation是结构自适应网络的一种。

在这里插入图片描述

特点

级联相关网络无需设置网络层数、隐层神经元数目，且训练速度较快，但其在数据较小时易过拟合。
级联相关的一个关键特点是，它能够自动确定网络的结构，而无需人为设定隐层神经元和连接的数量。

3.2.5 Elman(RNN的一种)

“递归神经网络”(recurrent/recursive neural networks)允许网络中出现环形结构，从而可让一些神经元的输出反馈回来作为输入信号。网络在时刻的输出状态不仅与时刻 $t$ 的输入有关，还与时刻 $t - 1$ 的网络状态有关，从而能处理与时间有关的动态变化。

在这里插入图片描述

神经网络基础知识：
了解神经网络的基本概念，包括神经元、权重、激活函数、前向传播和反向传播等。

序列数据：
理解递归神经网络主要用于处理序列数据，这些数据是按时间顺序排列的，如时间序列、文本、音频信号等。

基本结构：
描述递归神经网络的基本结构，包括隐藏状态和输入序列。
隐藏状态：网络在处理序列时保留的内部状态，包含了先前时间步的信息。
输入序列：按照时间顺序输入到网络的数据，每个时间步一个输入。

循环连接：
了解递归神经网络中的循环连接，这是其与传统前馈神经网络的主要区别。
每个神经元都有一个自己的隐藏状态，以及连接到自己的权重，用于处理序列中的不同时间步的信息。

前向传播：
描述递归神经网络的前向传播过程，包括如何处理输入序列，更新隐藏状态，并产生输出。
在每个时间步，根据输入和上一个时间步的隐藏状态计算新的隐藏状态和输出。

反向传播：
了解递归神经网络的反向传播过程，用于训练网络。这包括如何计算梯度和调整权重，以减少损失函数。
通过反向传播算法，将误差信号从网络的输出层传播回网络的隐藏层，以更新权重。

短时记忆和长时记忆：
介绍递归神经网络的一个重要变体，即长短时记忆网络（LSTM）和门控循环单元（GRU），这些网络可以更好地处理长序列和梯度消失问题。

应用领域：
介绍递归神经网络在哪些应用领域有广泛应用，如自然语言处理、语音识别、时间序列预测、机器翻译等。

优点和缺点：
讨论递归神经网络的优点和缺点，如能够处理序列数据、捕捉时间相关性，但可能存在梯度消失问题。

3.2.6 Boltzmann机

Boltzmann机是一种"基于能量的模型"(energy-based model)。为网络状态定义一个"能量"(energy)，能量最小化时网络达到理想状态，而网络的训练就是在最小化这个能量函数。

Boltzmann机是全连接的，复杂度很高，现实中常采用仅保留显层与隐层之间的连接。

在这里插入图片描述

概率图模型基础知识：
了解概率图模型的基本概念，包括随机变量、条件概率分布、概率图、马尔可夫随机场（MRF）等。

基本结构：
描述Boltzmann机的基本结构，包括神经元和连接。
神经元：代表网络中的节点，每个神经元可以是一个随机变量。
连接：神经元之间的权重，用于表示它们之间的相互作用。

能量模型：
理解Boltzmann机是一个基于能量的模型，其中每个状态都有一个相关的能量值，与状态的概率分布密切相关。

双层结构：
了解Boltzmann机通常具有两层，即可见层和隐藏层。
可见层：包含输入数据的神经元。
隐藏层：包含未观测随机变量的神经元。

Hopfield网络与受限玻尔兹曼机：
探讨Boltzmann机与Hopfield网络以及受限Boltzmann机之间的关系和区别。
Hopfield网络是一种全连接的二值神经网络，而Boltzmann机是一个随机性模型。
受限Boltzmann机是一种特殊类型的Boltzmann机，通常具有受限的连接模式，以降低计算复杂性。

学习算法：
描述Boltzmann机的学习算法，如基于马尔可夫链的Gibbs采样和对比散度（Contrastive Divergence）。
Gibbs采样：用于从模型中采样样本。
对比散度：用于估计模型参数。

应用领域：
介绍Boltzmann机在哪些应用领域有广泛应用，如降维、生成模型、协同过滤等。

优点和缺点：
讨论Boltzmann机的优点和缺点，如能够捕捉高阶依赖关系、模型表现强大，但训练和推断可能较为复杂，尤其在大规模问题上。

3.3 深度学习

本质: 特征学习feature learning/表示学习representation learning。

节省训练开销的方法

待求参数量大，数据量小容易过拟合，数据量大训练开销大。

预训练+微调

预训练pre-training：每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，本层隐节点的输出作为下一层隐节点的输入；

微调fine-tuning：在预训练全部完成后，再对整个网络进行”微调“。

可视为将大量参数分组，对每组先找到局部看来比较好的设置，然后再基于这些局部较优的结果联合起来远行全局寻优。在利用了模型大量参数所提供的自由度的同时，有效地节省了训练开销。

权重共享(weight sharing)()

卷积神经网络(Convolutional Neural Network，CNN)

过滤等。

优点和缺点：
讨论Boltzmann机的优点和缺点，如能够捕捉高阶依赖关系、模型表现强大，但训练和推断可能较为复杂，尤其在大规模问题上。

3.3 深度学习

本质: 特征学习feature learning/表示学习representation learning。

节省训练开销的方法

待求参数量大，数据量小容易过拟合，数据量大训练开销大。

预训练+微调

预训练pre-training：每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，本层隐节点的输出作为下一层隐节点的输入；

微调fine-tuning：在预训练全部完成后，再对整个网络进行”微调“。

可视为将大量参数分组，对每组先找到局部看来比较好的设置，然后再基于这些局部较优的结果联合起来远行全局寻优。在利用了模型大量参数所提供的自由度的同时，有效地节省了训练开销。

权重共享(weight sharing)()

卷积神经网络(Convolutional Neural Network，CNN)

包括卷积层、采样层/池化/汇合Pooling等层，每一层的每一组（每个channel）神经元都是相同的连接权重，大幅减少训练参数数目。