收集了一下近几年用修辞结构理论(RST)做篇章结构解析的论文。关于修辞结构理论的介绍,可参考博客
做英文篇章RST解析,一般都是用RST Discourse Treebank数据集,共385篇文章,其中347篇训练集,38篇测试集。共包含53个单核修辞关系和25个多核修辞关系,下面的实验仅仅考虑了18种修辞关系(relation),具体分布如下:
修辞结构理论标注数据集 以及详细标注手册,每种修辞关系的意义也可从标注手册中找到。
评价指标有四个, 来自书籍The Theory and Practice of Discourse Parsing and Summarization:
Span:评价预测RST树骨架的能力
Nuclearity:评价预测RST树骨架和Nuclearity的能力
Relation:评价预测RST树骨架和Relation的能力
Full:评价预测RST树骨架和Nuclearity,以及Relation的能力
注意这里提到的实验,使用的是数据集给定的EDU基本语篇单元,而不是自己分割的
(1)A Linear-Time Bottom-Up Discourse Parser with Constraints and Post-Editing
来源: acl2014
网址:https://aclanthology.org/P14-1048.pdf
代码:https://github.com/arne-cl/feng-hirst-rst-parser
使用两个线性连CRF,贪婪自底向上的方式构建RST树。时间复杂度更小,线性于篇章中的句子个数。为了提高pipeline的准确度,增加了维特比解码的限制条件。引入post-edit(后处理),对RST树进行修正。
测试集统计:
考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果:
38篇测试集跑完需要的时间:
(2) Representation Learning for Text-level Discourse Parsing
来源:acl2014
网址:https://aclanthology.org/P14-1002.pdf
代码:https://github.com/jiyfeng/RSTParser
代码:https://github.com/jiyfeng/DPLP
使用的特征:
考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果:
值得一提的是代码https://github.com/jiyfeng/DPLP
公开训练的模型以及测试代码,可以直接进行篇章的解析,需要用到斯坦福的corenlp包,但是代码是python2。本人做了一些修改,适配python3版本,代码详见https://github.com/wangwang110/DPLP
(3)Transition-based Neural RST Parsing with Implicit Syntax Features
来源:coling2018
网址:https://aclanthology.org/C18-1047.pdf
代码:https://github.com/fajri91/NeuralRST
将篇章结构预测转化为一系列action的预测(Transition-based model)。利用隐式语法信息辅助RST解析,隐式语法信息来自Bi-Affine dependency parser的神经网络隐层输出。
RST解析的一个例子:
将结构预测转化为Action序列预测:
考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果(宏平均):
Feng and Hirst, 2014
和 Ji and Eisenstein, 2014
分别对应于本博客提到的(1)和(2)两篇论文
(4)Top-Down RST Parsing Utilizing Granularity Levels in Documents
来源:AAAI2020
网址:https://arxiv.org/pdf/2005.02680.pdf
代码:https://github.com/nttcslab-nlp/Top-Down-RST-Parser
利用段落,句子,EDU三个粒度的信息,自顶向下逐步将篇章结转树结构。图c是论文提出的构建篇章结构树的方法。先得到篇章到段落的结构,再将段落替换为段落到句子的结构,最后再将句子替换为句子到EDU的结构。不同粒度的结构是分开训练的。
表征模型:
parser过程:
考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果:
YZF18
是前面介绍的论文(3),FH14gCRF
是前面介绍的论文(1),JE14 DPLP
是前面介绍的论文(2)
(5)A Top-Down Neural Architecture towards Text-Level Parsing of Discourse Rhetorical Structure
来源:ACL2020
网址:https://arxiv.org/pdf/2005.02680.pdf
代码:https://github.com/NLP-Discourse-SoochowU/t2d_discourseparser
提出一个基于encoder 和decoder 的自顶向下的神经篇章解析模型,认为自顶向下的方式可以利用全局信息,也和人们阅读的方式一致。
EN表示在RST Discourse Treebank数据集上的实验结果(宏平均),考虑了18种语篇关系:
第二行Ji&Eisenstein(2014)
和第三行Feng&Hirst(2014)
分别对应本博客提到的论文(2)和(1)。
结果相差比较大的原因是:该论文使用的是A dependency perspective on RST discourse parsing and evaluation
提出的评价方式,与先前的使用的评价方式有些不同。总之,在英文数据集上,该论文的效果不及前面的篇论文。
更全面的统计:
https://paperswithcode.com/sota/discourse-parsing-on-rst-dt
如有疑问,欢迎提问;如有错误,欢迎批评指正。