机器学习之神经网络基本概念

喝水时间到

已于 2024-07-31 18:26:37 修改

阅读量970

点赞数 19

分类专栏：机器学习文章标签：机器学习神经网络人工智能

于 2024-07-31 18:25:57 首次发布

本文链接：https://blog.csdn.net/2202_75336422/article/details/140824774

版权

机器学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

1.神经元模型

神经网络中最基本的成分是神经元(neuron)模型，在生物神经网络中,每个神经元与其他神经元相连，当它“兴奋”时就会向相连的神经元发送化学物质，从而改变这些神经元内的电位：如果某神经元的电位超过了一个“阈值”(threshold)，那么它就会被激活，即“兴奋”起来，向其他神经元发送化学物质。

下图是一直沿用至今的M-P神经元模型。在这个模型中，神经元接收到来自几个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接(connection)进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”(activation function)处理以产生神经元的输出。

理想中的激活函数是图(a)所示的阶跃函数，它将输入值映射为输出值“0”或“1”，显然“1”对应于神经元兴奋，“0”对应于神经元抑制。然而，阶跃函数具有不连续、不光滑等不太好的性质，因此实际常用Sigmoid函数作为激活函数。典型的Sigmoid函数如图(b)所示，它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内，因此有时也称为“挤压函数”(squashing function)。

把许多个这样的神经元按一定的层次结构连接起来，就得到了神经网络。

2.感知机与多层网络

感知机由两层神经元组成，如下图所示。输入层接收外界输入信号后传输给输出层，输出层是M-P神经元，亦称“阈值逻辑单元”。感知机能容易地实现与，或，非运算。

需注意的是，感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元(functional neuron)，其学习能力非常有限。事实上，上述与、或、非问题都是线性可分(linearly separable)的问题。可以证明，若两类模式是线性可分的，即存在一个线性超平面能将它们分开，如下图(a)-(c)所示，则感知机的学习过程一定会收敛(converge)而求得适当的权向量 w =(w1;w2;...;wn+1)；否则感知机学习过程将会发生振荡(fuctuation)，u难以稳定下来，不能求得合适解，例如感知机甚至不能解决如图 (d)所示的异或这样简单的非线性可分问题。

要解决非线性可分问题，需考虑使用多层功能神经元。如下图所示，输出层和输入层之间的一层神经元被称为隐层或隐含层，隐含层和输出层神经元都是拥有激活函数的功能神经元。

3.其他常见神经网络

3.1 RBF网络

RBF(Radial Basis Function,径向基函数)网络是一种单隐层前馈神经网络，它使用径向基函数作为隐层神经元激活函数，而输出层则是对隐层神经元输出的线性组合。

3.2 ART网络

竞争型学习(competitive learning)是神经网络中一种常用的无监督学习策略，在使用该策略时，网络的输出神经元相互竞争，每一时刻仅有一个竞争获胜的神经元被激活，其他神经元的状态被抑制。这种机制亦称“胜者通吃”(winner-take-all)原则。
ART(Adaptive Resonance Theory,自适应谐振理论)网络是竞争型学习的重要代表。该网络由比较层、识别层、识别阈值和重置模块构成。其中，比较层负责接收输入样本，并将其传递给识别层神经元。识别层每个神经元对应一个模式类，神经元数目可在训练过程中动态增长以增加新的模式类。

3.3 SOM网络

SOM(Self-Organizing Map，自组织映射)网络是一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间(通常为二维)，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。

3.4 级联相关网络

一般的神经网络模型通常假定网络结构是事先固定的，训练的目的是利用训练样本来确定合适的连接权、阈值等参数。与此不同，结构自适应网络则将网络结构也当作学习的目标之一，并希望能在训练过程中找到最符合数据特点的网络结构。级联相关(Cascade-Correlation)网络|Fahlman and Lcbiere，1990是结构自适应网络的重要代表。

3.5 Elman网络

与前馈神经网络不同，“递归神经网络”(recurrent neural networks)允许网络中出现环形结构，从而可让一些神经元的输出反馈回来作为输入信号。这样的结构与信息反馈过程，使得网络在t时刻的输出状态不仅与t时刻的输入有关，还与t-1时刻的网络状态有关，从而能处理与时间有关的动态变化Elman 网络[Elman,1990]是最常用的递归神经网络之一，其结构如图，它的结构与多层前馈网络很相似，但隐层神经元的输出被反馈回来，与下-时刻输入层神经元提供的信号一起，作为隐层神经元在下一时刻的输入。隐层神经元通常采用 Sigmoid 激活函数，而网络的训练则常通过推广的 BP 算法进行。

3.6 Boltzmann机

神经网络中有一类模型是为网络状态定义一个“能量”(energy)，能量最小化时网络达到理想状态，而网络的训练就是在最小化这个能量函数Boltzmann 机就是一种“基于能量的模型”(energy-basedmodel)，其神经元分为两层:显层与隐层。显层用于表示数据的输入与输出，隐层则被理解为数据的内在表达。