⬆⬆⬆ 点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
杜文宇,西湖大学科研助理,导师张岳副教授,目前主要研究方向为自然语言处理中的传统自回归语言模型,以及大规模预训练模型,和对相关模型的语言学分析,共指消解等,已在ACL,AAAI,WWW等发表多篇一作文章。
一、相关背景:
句法信息相关的研究一直是研究热点,一部分学者主要关注在句法解析树的效果提升上,另外一部分学者关注在利用句法信息提升NLP其他任务效果。本文主要是探究语法结构对基于句法距离的语言模型影响。
论文的核心思想核心思想主要有两方面,一方面通过加入基于句法距离的句法结构确实能够提升语言模型的性能,另一方面在模型性能提升的基础上,通过加入有监督信号的句法距离,成功使语言模型生成的结构更符合人的先验,比如语言的右倾性特点。
1.1
研究动机
利用句法信息进行语言建模是20世纪90年代以来的一个热门研究课题。早期的尝试包括各种合并浅层语法信息的方法,如POS标签,以及更完整的句法数结构。随着神经网络方法的兴起,连续的、大规模的神经语言模型已经被证明大大优于传统的语言模型。
早期的工作(tree-structured的递归网络)在语言建模的上下文中结合了句法结构,但是没有解决如何从观测数据中推导结构化信息的问题。另有工作(PRPN)尝试通过解决语言建模任务来执行解析并构建语言模型,并引入了句法距离的概念,但是,使用PRPN模型复杂度较高,实践中难以操作。另有研究方向通过使用具有不同scale的递归模型获取层次结构(Clockwork RNN,ect.),通过在不同的scale上进行更新来分割RNN的隐藏状态。但是这些工作都为hidden的表示施加了预定义的层次结构。
现如今最先进的神经语言模型也不能捕捉文本中较长的句法依赖。因此,研究语言模型和句法之间的关系,以及是否可以将句法结构用来增强语言模型的效果是一个非常有趣的问题。
1.2
研究方法
为此,主要有两种研究思路,即基于转移的方法和基于距离的方法。前一部分工作试图将句法解析任务与语言模型结合。例如,RNNG通过自上而下的神经网络来建模单词和树的联合概率。随后的工作基于期望最大化算法开发了RNNG的无监督变体用作语言模型。第二部分工作设使用句法距离约束句法成分,构建语言模型,其中距离是连续单词之间的scale序列。使用该距离可以很好地契合语言模型的顺序性质,同时可以将句法距离转换为具有简单原理的句法树结构。
作者们提出了一种基于语法距离有监督的建模方法,并且扩充了多任务作为训练目标,