Transformer的七十二变

最新推荐文章于 2024-07-08 09:40:21 发布

PaperWeekly

最新推荐文章于 2024-07-08 09:40:21 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105236104

版权

本文探讨了Transformer模型自2017年提出以来在自然语言处理中的发展，着重介绍了如何通过Star-Transformer和BP-Transformer优化计算复杂度，以及Transformer-XL和Compressive Transformer如何解决长程关系捕捉的问题。这些模型通过独特的结构和算法，如星状结构、二分注意力和循环机制，提升了Transformer处理长文本的能力，部分模型在实验中表现优于原始Transformer。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜李明晓

学校｜鲁汶大学博士生

研究方向｜自然语言处理

自 2017 年 Google 提出 Transformer 后，其在各项 NLP 任务中都取得了 SOTA 的表现。然而其自身的结构缺陷导致了两个问题：

1）由于自注意力机制每次都要计算所有词之间的注意力，其所需计算复杂度为输入长度的平方；2）Transformer 需要事先设定输入长度，这导致了其对于长程关系的捕捉有了一定限制，并且由于需要对输入文档进行分割会导致语意上的碎片化。

近年来许多工作通过对 Transformer 结构的调整优化来缓解以上两个问题。

本文分为两部分，第一部分介绍和比较的三个模型（Star-Transformer 和 BP-Transformer）试图在时间复杂度和空间复杂度上优化 Transformer。第二部分介绍和比较的两个模型（Transformer-XL 和 Compressivetransformer）试图解决上面提出的第二个问题。

对 Transformer 不了解的可先阅读该博客：

https://jalammar.github.io/illustrated-transformer/

更高效的Transformer

1. Star-Transformer

论文标题：Star-Transformer

论文来源：NAACL 2019

论文链接：https://arxiv.org/abs/1902.09113

代码链接：https://github.com/fastnlp/fastNLP

原始的 Transformer 在计算注意力的时候，序列中每个元素要和所有元素进行计算，也是这样的计算方式导致了其复杂度为序列长度的平方。

同时 Transformer 这样所有元素直接相互作用的计算方式没能够很好地使用我们所知道的一些语言序列上的特性，比如语言序列中相邻的词往往本身就会有较强的相关性。

对于这个问题，Star-Transformer 在注意力机制的计算上进行了优化，构建了一个星状的结构，所有序列中直接相邻的元素可以直接相互作用，而非直接相邻的元素则通过中心元素实现间接得信息传递。

具体结构比较如下图所示，左边为正常的 Transformer，右边为 Star-Transformer。

下图为 Star-Transformer 的参数更新算法。在初始化阶段，卫星节点的初始值为相应的词向量，而中心节点的初始值为所有卫星节点词向量的平均值。

算法中参数更新分为两步：第一步为卫星节点的更新，第二步为中心节点的更新。两步的更新都是基于多头注意力机制。

对于卫星节点，计算多头注意力机制时只需考虑该节点状态与直接相邻节点，中心节点，该节点词向量和本节点上一时刻状态的信息交互（如下图中）。

因为中心节点担负着所有卫星节点之间的信息交互，因此中心节点在更新时须与自己上一时刻的信息和所有卫星节点进行信息交互。同时为了表示位置信息，在卫星节点中还必须拼接上表示位置信息的可学习的向量。

该模型在使用中，针对序列的下游任务使用卫星节点的输出，而针对语言推理文本分类这种需要整个句子的任务则可以使用中心节点的输出。

作者的实验中表明，该非直接的联系方式同样能够学习到长程联系，同时在一些任务上的也取得了比 Transformer 更好的表现。

2. BP-Transformer

论文标题：BP-Transformer: Modelling Long-Range Context via Binary Partitioning

论文来源：NAACL 2019

论文链接：https://arxiv.org/abs/1911.04070

代码链接：https://github.com/yzh119/BPT

BP-Transformer 采用一个层级（从细粒度到粗粒度）的注意力计算机制来改进原始的 Transformer。其能够将 Transformer 在计算注意力时的时间复杂度从降低到

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Transformer的七十二变

©PaperWeekly 原创 ·作者｜李明晓学校｜鲁汶大学博士生研究方向｜自然语言处理自 2017 年 Google 提出 Transformer 后，其在各项 NLP 任务中都取...
复制链接

扫一扫

PaperWeekly CSDN认证博客专家 CSDN认证企业博客

码龄7年

1451: 原创

4731: 周排名

167: 总排名

555万+: 访问

: 等级

4万+: 积分

8710: 粉丝

6607: 获赞

1002: 评论

2万+: 收藏

私信

关注

热门文章

最新评论

博士申请 | 香港理工大学MIND实验室招收EEG信号处理/语音增强方向全奖博士/博后...
m0_68606608: 你好，请问实验室官网上有标明招收EEG方向的phd吗？我似乎没搜到
NeurIPS 2022｜探明图对比学习的“游戏规则”：谱图理论视角
m0_52089040: 文章中的很多符号不见了
大语言模型之生成/推理：参数与解码策略原理及其代码实现
大袖揽清风。: say进行分词应该是一个token吧。送入网络前的shape不应该是(b,seq_len)吗？讲道理shape应该是(1,1)才对，张量应该是[[1827]]啊？为什么是[[1,1827]]?
字节跳动 2019 ICME 双赛道冠军团队方案分享
weixin_51042469: 博主您好，请问数据集可以分享嘛？
ACL 2024 | OceanGPT（沧渊）：面向海洋科学任务的大型语言模型初探
眕眕: 实测效果：问：直接汇入东海的河流有哪些答：东海沿岸有几个河流直接注入东海。其中一些主要河流包括: 1.松江:位于上海市，长江的主要支流，在上海市区附近汇入东海。 2.长江:世界上第三长的河流，也是长江的主要支流。它发源于中国西南地区，最终在上海市附近汇入东海。 3.淮河:位于中国东部，淮河在江苏省的淮安市附近汇入东海。 4.淮阳河:位于中国东部，淮阳河在江苏省的淮安市附近汇入东海。 5.淮河:位于中国东部，淮河在江苏省的淮安市附近汇入东海。 6.珠江:珠江是中国的第二长河流，最终在广东省的香港特别行政区附近汇入南海，包括东海。 7.黑龙江:黑龙江是中国最长的河流，最终在黑龙江省的哈尔市附近汇入东海。这些河流在东海沿岸地区起着重要的水循环作用，并对当地的水文和生态平衡产生影响。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。