©PaperWeekly 原创 · 作者 | 吴昊一
单位 | 上海科技大学
研究方向 | 自然语言处理
本文介绍了上海科技大学屠可伟课题组的一项研究,提出了一个与 Transformer 结构极为类似的概率句法模型。该论文已被 ACL 2023 接收为 Findings 长文。
论文标题:
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation
论文链接:
https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/acl-f23pt.pdf
代码链接:
https://github.com/whyNLP/Probabilistic-Transformer
Transformer: 一个黑盒模型
曾几何时,句法分析是自然语言处理的核心步骤。但过去十年间,基于经验设计的神经网络席卷了 NLP 领域,成为了主流的方法手段 [1],而句法结构在这些方法中逐渐被淡化和忽视。Transformer 就是其中的一个重要代表:尽管有研究表明 Transformer 具有一定的编码句法结构的能力,但其本质上仍是一个依据经验设计的黑盒模型,这些能力从何而来,我们不得而知。
为此,世界各地的研究人员正试图揭开 Transformer 工作原理的面纱。例如,马毅教授团队近期指出 Transformer 是表示压缩与稀疏化的迭代过程 [2],田渊栋博士则透彻分析了单层 Transformer 的原理 [3]。
LeCun力挺,马毅教授五年集大成之作:完全数学可解释的白盒Transformer,性能不输ViT
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
我们最新发表的工作尝试从一个全新的角度来思考这个问题。我们不再关注 Transformer 中的每个细节,而是从理论出发,构建了一个传统的概率模型来建模句子中的依存语法结构,并推导了该模型的近似推理算法。通过分析计算图,我们发现该模型与 Transformer 存在着惊人的相似之处。同时,在各种中小规模数据集上,我们的模型与 Transformer 性能不相上下。