ACL 2023 Findings | 概率句法角度的Transformer诠释

最新推荐文章于 2024-09-27 18:48:12 发布

PaperWeekly

最新推荐文章于 2024-09-27 18:48:12 发布

阅读量229

点赞数

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/131907443

版权

上海科技大学的研究提出了一种概率Transformer模型，该模型基于概率句法理论，揭示了Transformer与依存句法的相似性。论文在ACL 2023 Findings中被接收，模型的计算图与Transformer结构相近，且在多项任务上与Transformer表现相当。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 吴昊一

单位 | 上海科技大学

研究方向 | 自然语言处理

本文介绍了上海科技大学屠可伟课题组的一项研究，提出了一个与 Transformer 结构极为类似的概率句法模型。该论文已被 ACL 2023 接收为 Findings 长文。

论文标题：

Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation

论文链接：

https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/acl-f23pt.pdf

代码链接：

https://github.com/whyNLP/Probabilistic-Transformer

Transformer: 一个黑盒模型

曾几何时，句法分析是自然语言处理的核心步骤。但过去十年间，基于经验设计的神经网络席卷了 NLP 领域，成为了主流的方法手段 [1]，而句法结构在这些方法中逐渐被淡化和忽视。Transformer 就是其中的一个重要代表：尽管有研究表明 Transformer 具有一定的编码句法结构的能力，但其本质上仍是一个依据经验设计的黑盒模型，这些能力从何而来，我们不得而知。

为此，世界各地的研究人员正试图揭开 Transformer 工作原理的面纱。例如，马毅教授团队近期指出 Transformer 是表示压缩与稀疏化的迭代过程 [2]，田渊栋博士则透彻分析了单层 Transformer 的原理 [3]。

LeCun力挺，马毅教授五年集大成之作：完全数学可解释的白盒Transformer，性能不输ViT

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

我们最新发表的工作尝试从一个全新的角度来思考这个问题。我们不再关注 Transformer 中的每个细节，而是从理论出发，构建了一个传统的概率模型来建模句子中的依存语法结构，并推导了该模型的近似推理算法。通过分析计算图，我们发现该模型与 Transformer 存在着惊人的相似之处。同时，在各种中小规模数据集上，我们的模型与 Transformer 性能不相上下。