神经网络发展概述

最新推荐文章于 2024-07-24 11:52:18 发布

狮子座硅农（Leo ICer）

最新推荐文章于 2024-07-24 11:52:18 发布

阅读量5k

点赞数 2

本文链接：https://blog.csdn.net/qianniuwei321/article/details/80025155

版权

1. 感知机：

拥有输入层，输出层和一个隐藏层，无法执行异或操作；

2. 多层感知机（神经网络）：

拥有多个隐藏层，全连接结构；

使用sigmoid或tanh等连续函数模拟神经元对激励的相应；

训练上使用反向传播BP算法。

解决：异或逻辑无法模拟问题。

问题：（1）优化函数越来越容易陷入局部最优解，偏离全局最优解；

（2）“梯度消失”现象更加严重，BP反向传播时，没传递一层梯度衰减为原来的0.25，层数一多，梯度指数衰减以后低层基本上接受不到有效训练信号；

3. 深度神经网络DNN

为了克服梯度消失，ReLU、maxout等传输函数代替了sigmoid，形成了如今DNN的基本形式。将隐藏层推到七层。

语言学习4层，认识是较深层；图像识别中20层以上网络屡见不鲜

高速公路网络（highway network）和深度残差学习（deep residuallearning）进一步避免了梯度消失，达到152层。

4. CNN(卷积神经网络)

问题：全连接DNN中，下层神经元和上层神经元全都形成链接，带来潜在问题参数数量膨胀。像素为1K*1K图像，隐藏层有1M个节点，光这一层就有10^12权值需要训练，容易过拟合，而且极容易陷入局部最优。

解决：图像中有固有的局部模式（比如轮廓、边界，人的眼睛、鼻子、嘴等）可以利用，显然应该将图像处理中的概念和神经网络技术相结合。此时我们可以祭出题主所说的卷积神经网络CNN。对于CNN来说，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的，图像通过卷积操作后仍然保留原先的位置关系。

问题：无法对时间序列上的变化进行建模。
解决：然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了题主所说的另一种神经网络结构——循环神经网络RNN。

5. RNN(循环神经网络)

RRN（神经网络）

LSTM (Long Short Term Memory)单元：LSTM本身不是一个完整模型，是对RNN隐藏层的改进。一般所称LSTM网络，为使用LSTM单元的RNN网络。

在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward Neural Networks)。而在RNN中，神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出！表示成图就是这样的：

我们可以看到在隐含层节点之间增加了互连。为了分析方便，我们常将RNN在时间上进行展开，得到如图6所示的结构：

图6 RNN在时间上进行展开Cool，（t+1）时刻网络的最终结果O(t+1)是该时刻输入和所有历史共同作用的结果！这就达到了对时间序列建模的目的。不知题主是否发现，RNN可以看成一个在时间上传递的神经网络，它的深度是时间的长度！正如我们上面所说，“梯度消失”现象又要出现了，只不过这次发生在时间轴上。对于t时刻来说，它产生的梯度在时间轴上向历史传播几层之后就消失了，根本就无法影响太遥远的过去。因此，之前说“所有历史”共同作用只是理想的情况，在实际中，这种影响也就只能维持若干个时间戳。为了解决时间上的梯度消失，机器学习领域发展出了长短时记忆单元LSTM，通过门的开关实现时间上记忆功能，并防止梯度消失，一个LSTM单元长这个样子：

除了题主疑惑的三种网络，和我之前提到的深度残差学习、LSTM外，深度学习还有许多其他的结构。举个例子，RNN既然能继承历史信息，是不是也能吸收点未来的信息呢？因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向RNN、双向LSTM，同时利用历史和未来的信息。

事实上，不论是那种网络，他们在实际应用中常常都混合着使用，比如CNN和RNN在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。尽管看起来千变万化，但研究者们的出发点肯定都是为了解决特定的问题。题主如果想进行这方面的研究，不妨仔细分析一下这些结构各自的特点以及它们达成目标的手段。

狮子座硅农（Leo ICer）

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
神经网络发展概述

1. 感知机：拥有输入层，输出层和一个隐藏层，无法执行异或操作；2. 多层感知机（神经网络）：拥有多个隐藏层，全连接结构；使用sigmoid或tanh等连续函数模拟神经元对激励的相应；训练上使用反向传播BP算法。解决：异或逻辑无法模拟问题。问题：（1）优化函数越来越容易陷入局部最优解，偏离全局最优解；（2）“梯度消失”现象更加严...
复制链接

扫一扫