transformer和CNN

最新推荐文章于 2024-06-17 12:36:23 发布

蓝翔技校的码农

最新推荐文章于 2024-06-17 12:36:23 发布

阅读量886

点赞数

分类专栏： pytorch 笔记文章标签： python 人工智能

原文链接：https://zhuanlan.zhihu.com/p/330483336

版权

笔记同时被 2 个专栏收录

83 篇文章 6 订阅

订阅专栏

20 篇文章 0 订阅

订阅专栏

本文探讨Transformer模型在自然语言处理中的应用，强调其并行计算优势和局部信息获取的不足。Transformer通过词向量和位置编码处理序列数据，但位置编码的线性变换不可保语义，可能导致位置信息表达不准确。此外，模型顶层可能存在梯度消失问题，由于层归一化的位置，阻碍了梯度流。

摘要由CSDN通过智能技术生成

来源：https://zhuanlan.zhihu.com/p/330483336
优点
这一块分析的人很多，就不深究。

可以直接计算每个词之间的相关性，不需要通过隐藏层传递
可以并行计算，可以充分利用GPU资源

缺点

局部信息的获取不如RNN和CNN强
位置信息编码存在问题

在使用词向量的过程中，会做如下假设：对词向量做线性变换，其语义可以在很大程度上得以保留，也就是说词向量保存了词语的语言学信息（词性、语义）。然而，位置编码在语义空间中并不具有这种可变换性，它相当于人为设计的一种索引。那么，将这种位置编码与词向量相加，就是不合理的，所以不能很好地表征位置信息。

顶层梯度消失

Transformer 模型实际上是由一些残差模块与层归一化模块组合而成。目前最常见的 Transformer 模型都使用了LN，即层归一化模块位于两个残差模块之间。因此，最终的输出层与之前的 Transformer 层都没有直连通路，梯度流会被层归一化模块阻断。

蓝翔技校的码农

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。