定义
修辞结构理论Rhetorical structure theory是由论文Rhetorical Structure Theory: A Theory of Text Organization 提出的有关篇章分析和生成的理论,主要针对篇章连贯性问题。修辞结构理论
(1)通过描述各部分的修辞关系来分析篇章的结构和功能, 这些大小不一的部分被称为结构段(text span)或者基础语篇单位(Elementary Discourse Unit/EDU);text span由多个EDU组成。
(2) 提出了两种篇章单位:核心nucleus和卫星satellite。 核心是篇章最重要的部分,表示中心信息的单元,具有相对完整的语义。卫星是传达支撑信息的其他单元,用于补充说明核心部分,脱离核心的卫星部分通常是没有意义的。
(3)判定修辞关系需要考虑对核心的限制条件、对卫星的限制条件、对核心卫星的联合限制条件以及效果等四大因素
(4)每个修辞关系可以联结两个或多个text span或者EDU。 最基本的修辞关系有两种,分别是单核关系和多核关系,篇章中单核关系占主要部分。
-
具有不对称性的核心-卫星关系nucleus-satellite relation, 也称单核关系,修辞关系联结的单元存在主次之别;
-
无主次之分的多核关系 multinuclear relation,修饰关系联结的单元中无所谓谁是核心谁是卫星。 对比contrast关系和列表关系list都是典型的多核关系。
修辞结构理论认为,连贯的篇章由不同层次的修辞关系组成,并且可以表示为一种树形结构。从篇章单位开始,修辞结构树逐步覆盖整个篇章,形成层次化的篇章结构树。层次的复杂程度与篇章语义的复杂程度相关,语义越复杂,层次越多。
研究表明,修辞关系的集合是开放式的。 例如论文Rhetorical Structure Theory: Toward a Functional Theory of Text首先给出了20多种经典的修辞关系。随着研究的深入, 研究人员不断地对修辞关系集合做出改进和扩充。
具体例子
RST理论通过给一对对的EDU标注连贯关系,形成像这样解析全文的RST树:
在还没看修辞结构理论的具体实现方法之前,根据以上描述,大概想了以下做rst parser的流程:
- 篇章分成基础语篇单位EDU
- 判断每个EDU是核心还是卫星
- 根据核心和卫星的特征来判断修辞关系,特征可以是词性,依存关系等
- 构建篇章结构树
尽管每种修辞关系的判定都有限制条件,但是判定过程却是标注者凭语感在语义范畴中进行的,对于不同的标注者,修辞关系的标注结果也许并不完全相同。 这为自动进行修辞关系的判定带来了一定的困难。
另外,如何将修辞结构理论用于篇章的生成和分析也是一个问题,例如得到了篇章的修辞理论结构,如何评价这篇文章的结构。
其他资源
EducationalTestingService rst parser 训练代码
参考
《统计自然语言处理》第二版第十章