修辞结构理论论文集合

收集了一下近几年用修辞结构理论(RST)做篇章结构解析的论文。关于修辞结构理论的介绍,可参考博客

做英文篇章RST解析,一般都是用RST Discourse Treebank数据集,共385篇文章,其中347篇训练集,38篇测试集。共包含53个单核修辞关系和25个多核修辞关系,下面的实验仅仅考虑了18种修辞关系(relation),具体分布如下:
在这里插入图片描述

修辞结构理论标注数据集 以及详细标注手册,每种修辞关系的意义也可从标注手册中找到。

评价指标有四个, 来自书籍The Theory and Practice of Discourse Parsing and Summarization:

Span:评价预测RST树骨架的能力
Nuclearity:评价预测RST树骨架和Nuclearity的能力
Relation:评价预测RST树骨架和Relation的能力
Full:评价预测RST树骨架和Nuclearity,以及Relation的能力

注意这里提到的实验,使用的是数据集给定的EDU基本语篇单元,而不是自己分割的

(1)A Linear-Time Bottom-Up Discourse Parser with Constraints and Post-Editing

来源: acl2014
网址:https://aclanthology.org/P14-1048.pdf
代码:https://github.com/arne-cl/feng-hirst-rst-parser

使用两个线性连CRF,贪婪自底向上的方式构建RST树。时间复杂度更小,线性于篇章中的句子个数。为了提高pipeline的准确度,增加了维特比解码的限制条件。引入post-edit(后处理),对RST树进行修正。

测试集统计:
在这里插入图片描述

考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果:
在这里插入图片描述

38篇测试集跑完需要的时间:
在这里插入图片描述
(2) Representation Learning for Text-level Discourse Parsing

来源:acl2014
网址:https://aclanthology.org/P14-1002.pdf
代码:https://github.com/jiyfeng/RSTParser
代码:https://github.com/jiyfeng/DPLP

使用的特征:
在这里插入图片描述
考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果:

在这里插入图片描述
值得一提的是代码https://github.com/jiyfeng/DPLP公开训练的模型以及测试代码,可以直接进行篇章的解析,需要用到斯坦福的corenlp包,但是代码是python2。本人做了一些修改,适配python3版本,代码详见https://github.com/wangwang110/DPLP

(3)Transition-based Neural RST Parsing with Implicit Syntax Features

来源:coling2018
网址:https://aclanthology.org/C18-1047.pdf
代码:https://github.com/fajri91/NeuralRST

将篇章结构预测转化为一系列action的预测(Transition-based model)。利用隐式语法信息辅助RST解析,隐式语法信息来自Bi-Affine dependency parser的神经网络隐层输出。

RST解析的一个例子:
在这里插入图片描述
将结构预测转化为Action序列预测:
在这里插入图片描述

考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果(宏平均):
在这里插入图片描述
Feng and Hirst, 2014Ji and Eisenstein, 2014分别对应于本博客提到的(1)和(2)两篇论文

(4)Top-Down RST Parsing Utilizing Granularity Levels in Documents

来源:AAAI2020
网址:https://arxiv.org/pdf/2005.02680.pdf
代码:https://github.com/nttcslab-nlp/Top-Down-RST-Parser

利用段落,句子,EDU三个粒度的信息,自顶向下逐步将篇章结转树结构。图c是论文提出的构建篇章结构树的方法。先得到篇章到段落的结构,再将段落替换为段落到句子的结构,最后再将句子替换为句子到EDU的结构。不同粒度的结构是分开训练的。
在这里插入图片描述
表征模型:
在这里插入图片描述

parser过程:
在这里插入图片描述
考虑了18种语篇关系,在RST Discourse Treebank数据集上的实验结果:

在这里插入图片描述
YZF18是前面介绍的论文(3),FH14gCRF是前面介绍的论文(1),JE14 DPLP是前面介绍的论文(2)

(5)A Top-Down Neural Architecture towards Text-Level Parsing of Discourse Rhetorical Structure

来源:ACL2020
网址:https://arxiv.org/pdf/2005.02680.pdf
代码:https://github.com/NLP-Discourse-SoochowU/t2d_discourseparser

提出一个基于encoder 和decoder 的自顶向下的神经篇章解析模型,认为自顶向下的方式可以利用全局信息,也和人们阅读的方式一致。

EN表示在RST Discourse Treebank数据集上的实验结果(宏平均),考虑了18种语篇关系:

在这里插入图片描述
第二行Ji&Eisenstein(2014)和第三行Feng&Hirst(2014)分别对应本博客提到的论文(2)和(1)。

结果相差比较大的原因是:该论文使用的是A dependency perspective on RST discourse parsing and evaluation提出的评价方式,与先前的使用的评价方式有些不同。总之,在英文数据集上,该论文的效果不及前面的篇论文。

更全面的统计:
https://paperswithcode.com/sota/discourse-parsing-on-rst-dt


如有疑问,欢迎提问;如有错误,欢迎批评指正。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旺旺棒棒冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值