transformer和CNN

本文探讨Transformer模型在自然语言处理中的应用,强调其并行计算优势和局部信息获取的不足。Transformer通过词向量和位置编码处理序列数据,但位置编码的线性变换不可保语义,可能导致位置信息表达不准确。此外,模型顶层可能存在梯度消失问题,由于层归一化的位置,阻碍了梯度流。
摘要由CSDN通过智能技术生成

来源:https://zhuanlan.zhihu.com/p/330483336
优点
这一块分析的人很多,就不深究。

  1. 可以直接计算每个词之间的相关性,不需要通过隐藏层传递

  2. 可以并行计算,可以充分利用GPU资源

缺点

  1. 局部信息的获取不如RNN和CNN强

  2. 位置信息编码存在问题

在使用词向量的过程中,会做如下假设:对词向量做线性变换,其语义可以在很大程度上得以保留,也就是说词向量保存了词语的语言学信息(词性、语义)。然而,位置编码在语义空间中并不具有这种可变换性,它相当于人为设计的一种索引。那么,将这种位置编码与词向量相加,就是不合理的,所以不能很好地表征位置信息。

  1. 顶层梯度消失

Transformer 模型实际上是由一些残差模块与层归一化模块组合而成。目前最常见的 Transformer 模型都使用了LN,即层归一化模块位于两个残差模块之间。因此,最终的输出层与之前的 Transformer 层都没有直连通路,梯度流会被层归一化模块阻断。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值