修辞结构理论

定义

修辞结构理论Rhetorical structure theory是由论文Rhetorical Structure Theory: A Theory of Text Organization 提出的有关篇章分析和生成的理论,主要针对篇章连贯性问题。修辞结构理论

(1)通过描述各部分的修辞关系来分析篇章的结构和功能, 这些大小不一的部分被称为结构段(text span)或者基础语篇单位(Elementary Discourse Unit/EDU);text span由多个EDU组成。

(2) 提出了两种篇章单位:核心nucleus和卫星satellite。 核心是篇章最重要的部分,表示中心信息的单元,具有相对完整的语义。卫星是传达支撑信息的其他单元,用于补充说明核心部分,脱离核心的卫星部分通常是没有意义的。

(3)判定修辞关系需要考虑对核心的限制条件、对卫星的限制条件、对核心卫星的联合限制条件以及效果等四大因素

(4)每个修辞关系可以联结两个或多个text span或者EDU。 最基本的修辞关系有两种,分别是单核关系和多核关系,篇章中单核关系占主要部分。

  • 具有不对称性的核心-卫星关系nucleus-satellite relation, 也称单核关系,修辞关系联结的单元存在主次之别;

  • 无主次之分的多核关系 multinuclear relation,修饰关系联结的单元中无所谓谁是核心谁是卫星。 对比contrast关系和列表关系list都是典型的多核关系。

在这里插入图片描述

修辞结构理论认为,连贯的篇章由不同层次的修辞关系组成,并且可以表示为一种树形结构。从篇章单位开始,修辞结构树逐步覆盖整个篇章,形成层次化的篇章结构树。层次的复杂程度与篇章语义的复杂程度相关,语义越复杂,层次越多。

研究表明,修辞关系的集合是开放式的。 例如论文Rhetorical Structure Theory: Toward a Functional Theory of Text首先给出了20多种经典的修辞关系。随着研究的深入, 研究人员不断地对修辞关系集合做出改进和扩充。

论文给出的修辞关系

具体例子

RST理论通过给一对对的EDU标注连贯关系,形成像这样解析全文的RST树:

在这里插入图片描述

在还没看修辞结构理论的具体实现方法之前,根据以上描述,大概想了以下做rst parser的流程:

  1. 篇章分成基础语篇单位EDU
  2. 判断每个EDU是核心还是卫星
  3. 根据核心和卫星的特征来判断修辞关系,特征可以是词性,依存关系等
  4. 构建篇章结构树

尽管每种修辞关系的判定都有限制条件,但是判定过程却是标注者凭语感在语义范畴中进行的,对于不同的标注者,修辞关系的标注结果也许并不完全相同。 这为自动进行修辞关系的判定带来了一定的困难。

另外,如何将修辞结构理论用于篇章的生成和分析也是一个问题,例如得到了篇章的修辞理论结构,如何评价这篇文章的结构。

其他资源

修辞结构理论介绍

修辞结构理论标注数据集 以及详细介绍

修辞结构理论可视化

EducationalTestingService rst parser 训练代码

参考

《统计自然语言处理》第二版第十章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旺旺棒棒冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值