RNN、CNN、Transformer

卷积神经网络—不同层能够输出图像中不同层面上的细节特征;

循环神经网络RNN

传统RNN
全连接网络运用到NLP任务上,面临的问题:

1、对于不同的输入样本,输入和输出可能有不同的长度,因此输入层和输出层的神经元数量无法固定;
2、从输入文本的不同位置学到的同一特征无法共享;
模型中的参数太多,计算量太大;

1)解决办法—RNN网络结构----通过扫描数据输入的方式,使得每一个时间步的所有网络参数是共享的,且每个时间步不仅会接收当前时刻的输入,同时会接收上一个时刻的输出,从而使得其能够成功利用过去输入的信息来辅助当前时刻的判断
2)原始RNN存在的问题—采取的是线性序列结构—不断从前往后收集输入信息、这种线性结构不擅长捕获文本中的长期依赖关系—反向传播路径太长,容易造成严重的梯度消失或梯度爆炸问题;

长短期记忆网络(LSTM)
1)传统RNN—将所有的知识全部提取出来,不做任何处理的输入到下一个时间步进行迭代;
2)LSTM局限性:时序性的结构一方面使其很难具备高效的并行计算能力(当前状态的计算不仅要依赖当前的输入,还要依赖上一个状态的输出),另一方面使得整个LSTM模型(包括其他的RNN模型,如GRU)总体上更类似于一个马尔可夫决策过程,较难以提取全局信息;
3)GRU—可以看作一个LSTM的简化版本,其将a^t 与
c^t两个变量整合在一起,且讲遗忘门和输入门整合为更新门,输出门变更为重制门,大体思路没有太大变化;
4)GRU—参数量更少、收敛速度更快—适用于较少的数据集;

卷积神经网络CNN

1)解决长远距离的信息提取—把网络做的更深一些,越深的卷积核将会有更大的感受野,从而捕获更远距离的特征;
2)为了防止文本中的位置信息丢失,NLP领域里的CNN的发展趋势是抛弃Pooling层,靠全卷积层来叠加网络深度,并且在输入部分加入位置编码,人工将单词的位置特征加入到对应的词向量中;
3)网络做深—残差网络—解决梯度消失问题—本质是加速信息流动,使简单的信息传输可以有更简单的路径—网络做深的同时确保有良好的性能;

Transformer

1)详解推荐—参考链接:https://zhuanlan.zhihu.com/p/54356280
2)论文《Attention is All You Need》中提出的的模型—Transformer结构;
在这里插入图片描述
Transformer Block作为特征提取器代替了之前提到的LSTM和CNN结构;
3)通常使用的特征提取结构(包括了Bert)主要是Encoder中的Transformer;理解Transformer在Encoder中是怎么工作的;
在这里插入图片描述
Transformer Block==Multi-Head Attention(多头注意力机制)+Feed Forward(前馈神经网络)
4)Multi-Head Attention模块结构如下图;
在这里插入图片描述
5)Self-Attention模块结构如下图;
在这里插入图片描述

其余扩展提醒知识点

1)DGCNN(膨胀门卷积神经网络)—是基于CNN和简单Attention的模型;参考链接:https://kexue.fm/archives/5409
2)Transformer、RNN、CNN的性能比较;

1、从语义特征提取能力:Transformer显著超过RNN和CNN,RNN和CNN两者能力差不太多;
2、长距离特征捕获能力:CNN极为显著地弱于RNN和Transformer,Transformer微弱优于RNN模型,但在比较远的距离上(主语谓语距离大于13),RNN微弱优于Transformer,所以综合看,可以认为Transformer和RNN在这方面能力差不太多,而CNN则显著弱于前两者;
3、任务综合特征抽取能力:机器翻译任务是对NLP各项处理能力综合要求最高的任务之一,要想获得高质量的翻译结果,对于两种语言的词法、句法、语义、上下文处理能力、长距离特征捕获等方面的性能要求都是很高的。从综合特征抽取能力角度衡量,Transformer显著强于RNN和CNN,而RNN和CNN的表现差不太多;
4、并行计算能力:并行计算能力,并行计算是RNN的严重缺陷,而Transformer和CNN差不多;

参考链接:https://www.cnblogs.com/sandwichnlp/p/11612596.html

CNN在Seq2Seq模型中的经典应用—参考链接:https://www.cnblogs.com/sandwichnlp/p/11876987.html

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LH-Code

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值