作者丨赵彦鹏、张力文、屠可伟
单位丨上海科技大学
研究方向丨NLP、机器学习
自然语言处理领域的传统方法着重于处理离散符号之间的复杂结构,但近几年随着深度学习的兴起,出现了很多将符号向量化结合神经网络的方法。而将深度学习方法与传统 NLP 方法有机结合将会是自然语言处理领域未来的一个重要方向。
本文介绍了一篇来自于上海科技大学的 ACL 2018 论文“Gaussian Mixture Latent Vector Grammars”。该论文将传统的上下文无关文法与深度学习中的符号向量化思想相结合,提出了一种全新的“隐向量文法”,拓展了前人在文法向量化方面的工作,并获得了不错的实验效果。
该论文在 ACL 2018 审稿中获得了 6/5/5 的高分,是 ACL 2018 为数不多获得 6 分评审的长文。按 ACL 2018 的官方说明,6 分意味着审稿人认为这篇论文有可能改变整个领域并值得推荐最佳论文。据官方统计,ACL 2018 长文评审中仅有 0.4% 是 6 分,即总共只给出了约 12 个 6 分。
■ 论文 | Gaussian Mixture Latent Vector Grammars
■ 链接 | https://www.paperweekly.site/papers/2033
■ 源码 | https://github.com/zhaoyanpeng/lveg
背景
成分文法分析(Constituency Parsing)旨在得到句子的结构化表示,即得到句子所对应的语法树。语法树蕴含着一句话的生成过程,对于机器翻译、自然语言理解等任务大有裨益。
在成分文法分析中,最简单的模型是概率上下文无关文法(Probabilistic Context Free Grammars),但是这种模型假设文法规则的概率和其所在的上下文位置无关。因此,其在文法分析中表现效果很差。