吃瓜教程 | Datawhale-2021.10打卡（Task04）

最新推荐文章于 2024-10-05 19:19:55 发布

喝茶用勺子

最新推荐文章于 2024-10-05 19:19:55 发布

阅读量322

点赞数 1

分类专栏：吃瓜教程2021.10打卡文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/weixin_43530769/article/details/120985452

版权

吃瓜教程2021.10打卡专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第5章神经网络

5.1 神经元模型

1943年，Miculloch和Pitts受到生物神经网络启发，提出了机器学习中沿用至今的“M-P神经元模型”。在这个模型中，神经元接收到来自 $n$ 个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值与神经元的阈值进行比较（此时为线性模型，神经网络拟合能力较弱），然后通过“激活函数”处理以产生神经元的输出（通过非线性激活函数，将上述线性模型映射为非线性模型，提升了神经网络的拟合能力）。

在这里插入图片描述

常见的神经元激活函数如下图所示：

在这里插入图片描述

5.2 感知机与多层网络

感知机由输入层和输出层两层神经元组成，输入层接收外界输入信号后传递给输出层，输出层是 $\rm{M-P}$ 神经元。

在这里插入图片描述

给定训练数据集 $(\bm{x},y)$ ，权重 $\omega_{i}(i=1,2,\dots,n)$ 以及阈值 $\theta$ 可通过学习得到。阈值 $\theta$ 可看作一个固定输入为 $- 1$ 的“哑结点”所对应的连接权重 $\omega_{n+1}$ ，通过该操作可将权重和阈值的学习统一起来。当前感知机的输出为 $\hat{y}$ ，则感知机的权重调整方式如下：

$\omega_{i} \leftarrow \omega_{i}+\Delta \omega_{i} \tag{5.1}$

$\Delta \omega_{i} = \eta(y-\hat{y}) x_{i} \tag{5.2}$

其中 $\eta \in (0,1)$ 称为学习率，由上述权重的更新规则可知，若预测值 $\hat{y}$ 比真实值小， $\Delta \omega_{i}$ 输出为正数，通过式（5.1）将增大权重值；若预测值比真实值大，则 $\Delta \omega_{i}$ 输出为负数，通过式（5.1）将减小权重值，通过上述操作方法可使的预测值不断逼近真实值。

需注意，感知机只有输出层神经元进行激活函数处理，即只有一层功能神经元，学习能力有限，往往只能处理线性可分问题。要处理非线性可分问题，需考虑使用多层功能神经元，即在输出层与输入层中间添加隐含层。

多层前馈神经网络：每层神经元与下一层神经元全互连接，神经元之间不存在同层连接，也不存在跨层连接。

在这里插入图片描述
需注意，“前馈”并不意味着网络中信号不能后向传播，而是指网络拓扑结构上不存在回路。

5.3 误差逆传播算法（error BackPropagation,BP）

手推BP算法如下：

在这里插入图片描述

反向传播算法主要有如下三个步骤：

计算输出层误差
误差反向传播
更新权重值和阈值

缓解过拟合操作方法有：

早停（early stopping）：将数据集分成训练集和验证集，训练集用来计算梯度、更新连接权重和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权重和阈值。
正则化（regularization），在误差目标函数中增加一个用于描述网络复杂度的部分，例如权重与阈值的平方和。此外，还有Dropout失活正则化。

5.4 全局最小与局部极小

局部极小解：参数空间中的某个点，其领域点的误差函数值均不小于改点的函数值；

全局最小解：参数空间中所有点的误差函数值均不小于改点的误差函数值；

在这里插入图片描述

常采用如下策略“跳出”局部极小：

以多组不同参数值初始化多个神经网络；
使用“模拟退火”技术；
使用“随机梯度下降算法”。

5.5 其他常见神经网络

RBF网络（Radial Basis Function，径向基函数）
RBF网络：是一种单隐层前馈神经网络，它使用径向基函数作为隐层神经元激活函数，而输出层是对隐层神经元输出的线性组合。
RBF网络可表示为：
$\varphi (\bm{x}) = \sum\limits_{i=1}^{q} \omega_{i} \rho(\bm{x}_{i}, \bm{c}_{i}) \tag{5.18}$

其中 $q$ 为隐层神经元个数， $\bm{c}_{i}$ 和 $\omega_{i}$ 分别是第 $i$ 个神经元对应的中心和权重， $\rho(\bm{x},\bm{c}_{i})$ 是径向基函数。常用的高斯径向基函数如下：

$\rho(\bm{x},\bm{c}_{i}) = e^{-\beta_{i}\|\bm{x}-\bm{c}_{i}\|^{2}} \tag{5.19}$

ART网络（Adaptive Resonance Theory，自适应谐振理论）
ART网络：是竞争型学习的重要代表，由比较层、识别层、识别阈值和重置模块构成。竞争型学习是神经网络中一种常用的无监督学习策略，在使用该策略时，网络中的输出神经元相互竞争，每一时刻仅有一个获胜的神经元被激活，其他神经元的状态被抑制。
SOM网络（Self-Organizing Map，自组织映射）
SOM网络：是一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。