RNN、CNN、Transformer

最新推荐文章于 2024-08-09 21:38:41 发布

LH-Code

最新推荐文章于 2024-08-09 21:38:41 发布

阅读量3.2k

点赞数

文章标签：神经网络

本文链接：https://blog.csdn.net/haomei999/article/details/118798615

版权

卷积神经网络—不同层能够输出图像中不同层面上的细节特征；

循环神经网络RNN

传统RNN
全连接网络运用到NLP任务上，面临的问题：

1、对于不同的输入样本，输入和输出可能有不同的长度，因此输入层和输出层的神经元数量无法固定；
2、从输入文本的不同位置学到的同一特征无法共享；
模型中的参数太多，计算量太大；

1）解决办法—RNN网络结构----通过扫描数据输入的方式，使得每一个时间步的所有网络参数是共享的，且每个时间步不仅会接收当前时刻的输入，同时会接收上一个时刻的输出，从而使得其能够成功利用过去输入的信息来辅助当前时刻的判断；
2）原始RNN存在的问题—采取的是线性序列结构—不断从前往后收集输入信息、这种线性结构不擅长捕获文本中的长期依赖关系—反向传播路径太长，容易造成严重的梯度消失或梯度爆炸问题；

长短期记忆网络(LSTM)
1）传统RNN—将所有的知识全部提取出来，不做任何处理的输入到下一个时间步进行迭代；
2）LSTM局限性：时序性的结构一方面使其很难具备高效的并行计算能力（当前状态的计算不仅要依赖当前的输入，还要依赖上一个状态的输出），另一方面使得整个LSTM模型（包括其他的RNN模型，如GRU）总体上更类似于一个马尔可夫决策过程，较难以提取全局信息；
3）GRU—可以看作一个LSTM的简化版本，其将a^t 与
c^t两个变量整合在一起，且讲遗忘门和输入门整合为更新门，输出门变更为重制门，大体思路没有太大变化；
4）GRU—参数量更少、收敛速度更快—适用于较少的数据集；

卷积神经网络CNN

1）解决长远距离的信息提取—把网络做的更深一些，越深的卷积核将会有更大的感受野，从而捕获更远距离的特征；
2）为了防止文本中的位置信息丢失，NLP领域里的CNN的发展趋势是抛弃Pooling层，靠全卷积层来叠加网络深度，并且在输入部分加入位置编码，人工将单词的位置特征加入到对应的词向量中;
3）网络做深—残差网络—解决梯度消失问题—本质是加速信息流动，使简单的信息传输可以有更简单的路径—网络做深的同时确保有良好的性能；

Transformer

1）详解推荐—参考链接：https://zhuanlan.zhihu.com/p/54356280
2）论文《Attention is All You Need》中提出的的模型—Transformer结构；
在这里插入图片描述
Transformer Block作为特征提取器代替了之前提到的LSTM和CNN结构；
3）通常使用的特征提取结构(包括了Bert)主要是Encoder中的Transformer；理解Transformer在Encoder中是怎么工作的；

Transformer Block==Multi-Head Attention(多头注意力机制)+Feed Forward(前馈神经网络)
4）Multi-Head Attention模块结构如下图；
在这里插入图片描述
5）Self-Attention模块结构如下图；

其余扩展提醒知识点

1）DGCNN(膨胀门卷积神经网络)—是基于CNN和简单Attention的模型；参考链接：https://kexue.fm/archives/5409
2）Transformer、RNN、CNN的性能比较；

1、从语义特征提取能力：Transformer显著超过RNN和CNN，RNN和CNN两者能力差不太多；
2、长距离特征捕获能力：CNN极为显著地弱于RNN和Transformer，Transformer微弱优于RNN模型，但在比较远的距离上（主语谓语距离大于13），RNN微弱优于Transformer，所以综合看，可以认为Transformer和RNN在这方面能力差不太多，而CNN则显著弱于前两者；
3、任务综合特征抽取能力：机器翻译任务是对NLP各项处理能力综合要求最高的任务之一，要想获得高质量的翻译结果，对于两种语言的词法、句法、语义、上下文处理能力、长距离特征捕获等方面的性能要求都是很高的。从综合特征抽取能力角度衡量，Transformer显著强于RNN和CNN，而RNN和CNN的表现差不太多；
4、并行计算能力：并行计算能力，并行计算是RNN的严重缺陷，而Transformer和CNN差不多；

参考链接：https://www.cnblogs.com/sandwichnlp/p/11612596.html

CNN在Seq2Seq模型中的经典应用—参考链接：https://www.cnblogs.com/sandwichnlp/p/11876987.html

LH-Code

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
RNN、CNN、Transformer

卷积神经网络—不同层能够输出图像中不同层面上的细节特征；循环神经网络RNN传统RNN全连接网络运用到NLP任务上，面临的问题：1、对于不同的输入样本，输入和输出可能有不同的长度，因此输入层和输出层的神经元数量无法固定；2、从输入文本的不同位置学到的同一特征无法共享；模型中的参数太多，计算量太大；1）解决办法—RNN网络结构----通过扫描数据输入的方式，使得每一个时间步的所有网络参数是共享的，且每个时间步不仅会接收当前时刻的输入，同时会接收上一个时刻的输出，从而使得其能够成功利用过去输入的信
复制链接

扫一扫