人工神经网络的基本原理

最新推荐文章于 2025-03-03 22:23:45 发布

九欧

最新推荐文章于 2025-03-03 22:23:45 发布

阅读量1.4w

点赞数 12

分类专栏：笔记文章标签：神经网络人工智能机器学习

本文链接：https://blog.csdn.net/qq_43912406/article/details/119155042

版权

笔记专栏收录该内容

2 篇文章

订阅专栏

1.1 人工神经网络原理

MeCulloch 和 Pitts 基于对大脑神经元的研究提出了人工神经元模型（M-P 模型）。人工神经元模型如下图所示。

M-P模型把神经元看作n个的输入对应产生1个输出，该模型的函数的表达式如下：

$y=f(\sum_{i=1}^{n}WiXi-b)$

该表达式中W=[W1,W2,W3...Wn]表示权值，X=[X1,X2,X3...Xn]表示输入，表达式中的b为阈值函数的对应法则f为激活函数，y表示神经元输出。这里我们需要知道大脑的神经元主要是通过神经间突触进行连接，通过连接的建立每一个单一的神经元可以接受到来自各个突触传来的电信号作为该神经元的输入，得到了其输入信号通过其轴突传出输出信号。权值Wn为突触强度，对于在该神经元上面的生物电信号的传导有一定的影响。其所有在神经细胞膜上的突触产生的电位的总和记为该神经细胞膜产生的电位，于是当该细胞的膜电位超过一个阈值的时候，其神经元便被激活，同时产生了一个输出的电信号。

1.1.1以下是神经元的结构图及相关的描述：

神经元（Neuron）是一种高度分化的细胞，是神经系统的基本结构和功能单位之一，它具有感受刺激和传导兴奋的功能。

神经元是高等动物神经系统的结构单位和功能单位。神经系统中含有大量的神经元，据估计，人类中枢神经系统中约含1000亿个神经元，仅大脑皮层中就约有140亿。

神经元描述：神经细胞呈三角形或多角形，可以分为树突、轴突和胞体这三个区域。

胞体的大小差异很大，小的直径仅5～6μm，大的可达100μm以上。突起的形态、数量和长短也很不相同。树突多呈树状分支，它可接受刺激并将冲动传向胞体；轴突呈细索状，末端常有分支，称轴突终末（axon terminal），轴突将冲动从胞体传向终末。通常一个神经元有一个至多个树突，但轴突只有一条。神经元的胞体越大，其轴突越长。

神经元按照用途分为三种：输入神经，传出神经, 和连体神经。

2.1 激活函数

激活函数其定义方式为一种映射关系，H:R1->R2(H表示函数的对应法则，R2与R2表示其在H上的自变量和因变量），其激活函数的条件为在其定义域内处处可微。该函数主要是为了增强神经网络的表达的能力，主要是通过该函数引入了非线性因素。我们可以这样进行理解，如果没有激活函数，那么神经网络便没有了非线性变换，也就只能做线性变换。

2.1.1 Sigmoid函数

如下所示为Sigmoid函数表达式和图像：

Sigmoid函数通过将变量x映射到0 1区间，该函数的图像关于点（0，0.5）对称，当x趋向于正无穷和负无穷的时候,其输出的值趋向于0。可以了解到，图像也趋于饱和，对于参数的调整不太友好，会产生一定的影响，同时的该函数输出的结果不是与0为中心的。对于现在的神经网络的训练中，Sigmoid函数也很少进行使用。

2.1.2 tanh函数

tanh函数通过将变量映射到0 1区间上，和sigmoid函数不同的是，其图像关于(0,0)对称，当x趋向于无穷大的时候，其输出趋向于0。虽然其图像同样存在饱和的问题，但是tanh函数是关于原点对称的，适合参数的调整。tanh函数的图像如下所示：

2.1.3 ReLU函数

如上为relu函数的表达式和其图像，通过观察图像得出该函数对于输入的数进行判断，如果输入的数大于等于0，便输出该数本身。反之小于0输出0。该函数计算十分的简单，对于前面的两个函数，不仅仅节约的计算的资源消耗同时也可以使得神经网络的学习的时间缩短。其函数的收敛的速度也很快，对于输出的结果可以看出，对于负数则进行了放弃处理，直接变为0。通过选择性的激活神经元，对于神经网络更加的高效。但是其缺点也十分的明显，如果在参数的选择的不好的情况下，会使得大量的神经元死掉，从而影响到神经网络的训练，甚至无法进行训练。

1.2 神经网络

如下图所示为神经网络图像：

神经网络（ANN）一般由输入层，隐藏层和输出层组成，第一层是输入层，最后一层是输出层，中间的层都是隐藏层。每层可含多个神经元，输入层的神经元个数取决于输入数据，其他层中神经元的数目会根据实际情况进行调整。隐藏层的层数是自定义的，往往不止一层。层与层之间往往是全连接的，即每层的任一神经元与下一层的所有神经元相连。层内的各神经元之间没有连接。下图是一个神经网络的图像，其中含有2 个隐藏层。神经网络可通过正向传播和反向传播来实现“自学习”。正向传播就是把样本喂入神经网络，经过隐藏层，最后从输出层得到结果的过程。模型的拟合程度可用损失函数的结果来评估，一般用输出层结果与样本标签求均方误差作为损失函数。在反向传播中常用梯度下降法来对损失函数迭代优化求最小值。在此过程中，权值，偏置值等参数不断被更新，损失函数的值不断变化，整体呈减小的趋势，当达到一定值后，学习结束。