ACL 2023 Findings | 概率句法角度的Transformer诠释

上海科技大学的研究提出了一种概率Transformer模型,该模型基于概率句法理论,揭示了Transformer与依存句法的相似性。论文在ACL 2023 Findings中被接收,模型的计算图与Transformer结构相近,且在多项任务上与Transformer表现相当。
摘要由CSDN通过智能技术生成

0fbdfa13c2716250e2c12d0b8d354518.gif

©PaperWeekly 原创 · 作者 | 吴昊一

单位 | 上海科技大学

研究方向 | 自然语言处理

本文介绍了上海科技大学屠可伟课题组的一项研究,提出了一个与 Transformer 结构极为类似的概率句法模型。该论文已被 ACL 2023 接收为 Findings 长文。

cdbd40ba56a4ffd137fcfa0616353b7f.png

论文标题:

Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation

论文链接:

https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/acl-f23pt.pdf

代码链接:

https://github.com/whyNLP/Probabilistic-Transformer

6ce38008721144d27ae4d711e026bbed.png

Transformer: 一个黑盒模型

曾几何时,句法分析是自然语言处理的核心步骤。但过去十年间,基于经验设计的神经网络席卷了 NLP 领域,成为了主流的方法手段 [1],而句法结构在这些方法中逐渐被淡化和忽视。Transformer 就是其中的一个重要代表:尽管有研究表明 Transformer 具有一定的编码句法结构的能力,但其本质上仍是一个依据经验设计的黑盒模型,这些能力从何而来,我们不得而知。

为此,世界各地的研究人员正试图揭开 Transformer 工作原理的面纱。例如,马毅教授团队近期指出 Transformer 是表示压缩与稀疏化的迭代过程 [2],田渊栋博士则透彻分析了单层 Transformer 的原理 [3]。

LeCun力挺,马毅教授五年集大成之作:完全数学可解释的白盒Transformer,性能不输ViT

田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘

我们最新发表的工作尝试从一个全新的角度来思考这个问题。我们不再关注 Transformer 中的每个细节,而是从理论出发,构建了一个传统的概率模型来建模句子中的依存语法结构,并推导了该模型的近似推理算法。通过分析计算图,我们发现该模型与 Transformer 存在着惊人的相似之处。同时,在各种中小规模数据集上,我们的模型与 Transformer 性能不相上下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值