修辞结构理论论文集合

最新推荐文章于 2024-09-15 07:56:15 发布

旺旺棒棒冰

最新推荐文章于 2024-09-15 07:56:15 发布

阅读量1k

点赞数 4

分类专栏： nlp应用文章标签：篇章分析修辞结构理论篇章结构解析 RST parser 篇章结构树

本文链接：https://blog.csdn.net/ltochange/article/details/118493971

版权

nlp应用专栏收录该内容

27 篇文章

订阅专栏

收集了一下近几年用修辞结构理论(RST)做篇章结构解析的论文。关于修辞结构理论的介绍，可参考博客

做英文篇章RST解析，一般都是用RST Discourse Treebank数据集，共385篇文章，其中347篇训练集，38篇测试集。共包含53个单核修辞关系和25个多核修辞关系，下面的实验仅仅考虑了18种修辞关系（relation），具体分布如下：
在这里插入图片描述

修辞结构理论标注数据集以及详细标注手册，每种修辞关系的意义也可从标注手册中找到。

评价指标有四个, 来自书籍The Theory and Practice of Discourse Parsing and Summarization：

Span：评价预测RST树骨架的能力
Nuclearity：评价预测RST树骨架和Nuclearity的能力
Relation：评价预测RST树骨架和Relation的能力
Full：评价预测RST树骨架和Nuclearity，以及Relation的能力

注意这里提到的实验，使用的是数据集给定的EDU基本语篇单元，而不是自己分割的

（1）A Linear-Time Bottom-Up Discourse Parser with Constraints and Post-Editing

来源： acl2014
网址：https://aclanthology.org/P14-1048.pdf
代码：https://github.com/arne-cl/feng-hirst-rst-parser

使用两个线性连CRF，贪婪自底向上的方式构建RST树。时间复杂度更小，线性于篇章中的句子个数。为了提高pipeline的准确度，增加了维特比解码的限制条件。引入post-edit(后处理)，对RST树进行修正。

测试集统计：
在这里插入图片描述

考虑了18种语篇关系，在RST Discourse Treebank数据集上的实验结果：
在这里插入图片描述

38篇测试集跑完需要的时间：
在这里插入图片描述
（2） Representation Learning for Text-level Discourse Parsing

来源：acl2014
网址：https://aclanthology.org/P14-1002.pdf
代码：https://github.com/jiyfeng/RSTParser
代码：https://github.com/jiyfeng/DPLP

使用的特征：
在这里插入图片描述
考虑了18种语篇关系，在RST Discourse Treebank数据集上的实验结果：

在这里插入图片描述
值得一提的是代码https://github.com/jiyfeng/DPLP公开训练的模型以及测试代码，可以直接进行篇章的解析，需要用到斯坦福的corenlp包，但是代码是python2。本人做了一些修改，适配python3版本，代码详见https://github.com/wangwang110/DPLP

（3）Transition-based Neural RST Parsing with Implicit Syntax Features

来源：coling2018
网址：https://aclanthology.org/C18-1047.pdf
代码：https://github.com/fajri91/NeuralRST

将篇章结构预测转化为一系列action的预测（Transition-based model）。利用隐式语法信息辅助RST解析，隐式语法信息来自Bi-Affine dependency parser的神经网络隐层输出。

RST解析的一个例子：
在这里插入图片描述
将结构预测转化为Action序列预测：

考虑了18种语篇关系，在RST Discourse Treebank数据集上的实验结果（宏平均）：
在这里插入图片描述
Feng and Hirst, 2014和 Ji and Eisenstein, 2014分别对应于本博客提到的（1）和（2）两篇论文

（4）Top-Down RST Parsing Utilizing Granularity Levels in Documents

来源：AAAI2020
网址：https://arxiv.org/pdf/2005.02680.pdf
代码：https://github.com/nttcslab-nlp/Top-Down-RST-Parser

利用段落，句子，EDU三个粒度的信息，自顶向下逐步将篇章结转树结构。图c是论文提出的构建篇章结构树的方法。先得到篇章到段落的结构，再将段落替换为段落到句子的结构，最后再将句子替换为句子到EDU的结构。不同粒度的结构是分开训练的。
在这里插入图片描述
表征模型：

parser过程：
在这里插入图片描述
考虑了18种语篇关系，在RST Discourse Treebank数据集上的实验结果：

在这里插入图片描述
YZF18是前面介绍的论文（3），FH14gCRF是前面介绍的论文（1），JE14 DPLP是前面介绍的论文（2）

（5）A Top-Down Neural Architecture towards Text-Level Parsing of Discourse Rhetorical Structure

来源：ACL2020
网址：https://arxiv.org/pdf/2005.02680.pdf
代码：https://github.com/NLP-Discourse-SoochowU/t2d_discourseparser

提出一个基于encoder 和decoder 的自顶向下的神经篇章解析模型，认为自顶向下的方式可以利用全局信息，也和人们阅读的方式一致。

EN表示在RST Discourse Treebank数据集上的实验结果（宏平均），考虑了18种语篇关系：

在这里插入图片描述
第二行Ji&Eisenstein(2014)和第三行Feng&Hirst(2014)分别对应本博客提到的论文（2）和（1）。

结果相差比较大的原因是：该论文使用的是A dependency perspective on RST discourse parsing and evaluation提出的评价方式，与先前的使用的评价方式有些不同。总之，在英文数据集上，该论文的效果不及前面的篇论文。

更全面的统计：
https://paperswithcode.com/sota/discourse-parsing-on-rst-dt

如有疑问，欢迎提问；如有错误，欢迎批评指正。