论文The Penn Discourse TreeBank 2.0 主要介绍了第二版PDTB数据集
摘要
对100万词华尔街日报语料库进行标注,标注其基于词汇的语篇关系(Discourse relations)及其对应的两个arguments,主要包含一下三个部分:
(1)语篇关系及其arguments
(2)语义标注
(3)归因标注
这里说得可能有点抽象,后面会针对每一个做具体的解释。
注意:Penn Discourse TreeBank (PDTB)数据集与Penn Treebank(PTB)数据集,Prop-bank 标注了相同的目标数据(华尔街日报语料),但是PDTB提供了更加丰富的内容,包括语法,语义以及语篇方面。
语篇关系及其arguments
在PDTB数据集中,语篇关系(Discourse relations),通过语篇连接词(discourse connectives)进行标注。如下图所示,通过连接词 As a result
连接上下两句。
PDTB中的语篇关系可以大致分为两种类型,一种是显式关系,一种是隐式关系。每种语篇关系对应两个arguments,记为Arg1
和Arg2
。
显式关系
由显式连接词连接两个arguments,如上图中,通过连接词 As a result
将上下两句标注为因果关系。
显式连接词可以分为以下三类:
- 从属连词,例如when,because,since等
- 并列连词,例如and,so,but等
- 语篇副词,例如for example, instead, on the other hand等
此外,还有一些带修饰语的连接词和多重连接词的情况,例如 only because, if and when等。还有一小部分的并列连词,例如,either…or, on the one hand…on the other hand等
在显式关系中,Arg2
是连接词在语法上绑定的argument,Arg1
则是另一个argument。相邻句子之间的关系中,Arg1
和Arg2
反映了arguments的线性顺序,Arg1在Arg2之前。
对于从属连词,因为从句通常是和连接词绑定的,因此,从句是Arg2
,主句是Arg1
. 在文本中,其顺序可以是Arg1-Arg2
(下图例2),也可以是Arg2-Arg1
(下图例3),或者Arg2
嵌在Arg1
中(下图例4)。
图中的连接词用横线表示,Arg1
用斜体表示,Arg2
用加粗表示。
对于语篇副词和并列连词,arguments的顺序通常为Arg1-Arg2
,但是也有特殊情况,下图例5给出了语篇副词的Arg1嵌在Arg2中
显式连接词的arguments不会被限制在单个从句或者单个句子中,通常会和多个从句或者句子有联系。然而,最小性原则(minimality principle)要求一个argument包含完成关系解释所需的最小信息量。 其他与关系解释相关,但不必需的文本都被标注为补充信息,Arg1
的补充记为Sup1
,Arg2
的补充记为Sup2
显示连接词arguments的位置和范围是抽取式摘要和自然语言生成关注的问题。由于,Arg2
是显式连接在语法上绑定的,所以识别显式连接的Arg2
比识别Arg1
更容易。下图给出了显示连接词的Arg1
的位置和范围的分布,行代表位置,列代表范围。
Arg1的位置
SS: Arg1和连接词在同一句中
IPS:Arg1在相邻的上一句中
NAPS:Arg1在不相邻的前面的句子中
FS:Arg1在包含连接词的句子后面的句子中
Arg1的范围
SingleFull:单个完整的句子
SinglePartial:单个句子的一部分
MultFull:多个完整的句子
MultPartial: 多个句子的部分
数据集中的显示连接词的例子,其中第一种和第二种比较多
- 显式句内连接
(1)The drug seems to suppress ovulation for three to seven months after it is taken
Explicit after
(2)taken about a week after a woman misses her menstrual period up through the seventh week of pregnancy, when it is markedly less effective
Explicit about a week after - 显式相邻句间连接
(1)They didn’t panic during the first round of selling this morning. Instead, they bought on weakness and sold into the strength, which kept the market orderly
Explicit Instead
(2)Of course, some observers have touted Houston and Denver for the past five years as a counter-cyclical play. But now appears to be the time to act
Explicit But - 显示连接横跨多句
(1)By some measures, metropolitan Denver’s economy has actually improved in the past four years.
Its population has continued to increase since 1983, the peak year of the economic cycle.
Employment is now 4% higher than in 1983.
Buying income in real dollars actually increased 15% between 1983 and 1987 (the most recent year available).
The rates of increase, however, are less than the rapid growth of the boom years
Explicit however
(2)But with foreign companies snapping up U.S. movie studios, the networks are pressing their fight harder than ever.
They hope the foreign deals will divide the Hollywood opposition and prod Congress to push for ending federal rules that prohibit the networks from grabbing a piece of rerun sales and owning part of the shows they put on the air.
Even network executives, however, admit privately that victory – either in Congress or in talks with the studios – is highly doubtful any time soon.
And so the networks also are pushing for new ways to sidestep the “fin-syn” provisions
Explicit also
隐式关系
两个相邻句子之间没有显示的连接词进行连接,语篇关系是由读者推断出来的。如下图例6所示,虽然没有显式的连接词,但是可以推断出式因果关系。标注者通过阅读前文和上下句来判断是否需要插入连接词来表示某种语篇关系。段落内所有连续的句子对之间(包括以分号或者冒号隔开的从句之间)会被标注隐式连接词。连续的句子对即是语篇关系对应的两个arguments
此外,还有三种比较特殊的隐式关系类别,AltLex
, EntRel
以及NoRel
AltLex
:插入隐式连接词会导致冗余,因为语篇关系已经由非连接词表达(下图例7)
EntRel
:句子之间是基于实体的连贯关系(下图例8)
NoRel
:句子之间没有语篇关系或者实体连贯关系(下图例9)
PDTB数据集中不同语篇关系的统计,这里将三个特殊的隐式关系AltLex
, EntRel
以及NoRel
作为单独的类:
语义标注
一个语篇连接词可以有多种意义,例如下图中,句子10中连接词since代表时序Temporal
,句子11中连接词since是因果Causal
。句子12中连接词since是既有因果Causal
的意思,又有时序Temporal
的意思。PDTB中的语义标注(Sense Annotation),就是指出当前连接词对应的那哪种语义更为适用。
PDTB遵循层次分类方法为语篇关系提供语义标签,包括显式关系、隐式关系以及AltLex关系。语义标签突出了连接词的多义性,因此PDTB在词义消歧任务中也很有用。下图给出了PDTB中语篇关系的三级语义标签,分别为CLASS
,TYPE
,SUBTYPE
。
设置三级语义标签的好处在于:当无法推断出更细的标签类别,或者对于更细的标签类别,不同的标注者存在歧义时,可以选择更高级别的类别作为标注结果。另外,不同级别标签数量是根据数据和任务的性质决定的。PDTB中的语篇关系对应的语义是由两个标注者分开标注的,在不同级别标签的上的标注一致性如下图所示:
下图展示了在CLASS级别(一级标签)上,不同的语篇关系的分布情况:
下图展示了显式关系中十个最多义的连接词及其语义标签的分布,若某语义标签在数据集中出现的次数少于10,则被标注为other
可以看出,after, since,when连接词代表不同时的情况,其语义标签可能在TEMPORAL和CONTINGENCY中,易混淆。while, meanwhile连接词代表同时的情况,其语义标签可能在TEMPORAL和CONTINGENCY中,易混淆。but, however,although连接词的语义标签可能在Contrast和Concession中,但是都属于COMPARISON,很少出现在其他的CLASS中。
一个连接词可能对应多个语篇关系:
in turn
{'Temporal', 'Expansion', 'Contingency'}
Then
{'Temporal', 'Expansion'}
still
{'Temporal', 'Comparison'}
meanwhile
{'Temporal', 'Expansion', 'Comparison'}
in the end
{'Temporal', 'Expansion', 'Contingency', 'Comparison'}
Or
{'Contingency', 'Expansion', 'Comparison'}
In that case
{'Expansion', 'Contingency'}
now that
{'Temporal', 'Contingency'}
and
{'Temporal', 'Comparison', 'Expansion', 'Contingency'}
归因标注
归因标注(Attribution Annotation)即识别语篇关系及其两个arguments的主体(agents)。例如下图,句子14中的关系以及arguments的主体是文本作者,句子15中的关系及其arguments的主体是Bill Biedermann(除作者之外的其他人),句子16中Arg1的主体是文本作者,而Arg2主题是purchasing agents
图中,代表归属者的短语用文本框标识
PDTB数据集标注出不同文本段对应的agents,并给出了四个相应的特征
Source特征:区分不同类型的 agents
- 文本作者,记为
Wr
- 文本中提到的其他agents,记为
Ot
- 通过非特定的引用指出的任意agents,记为
Arb
统计表明,不能简单地把语篇系及其arguments归于文本的作者,三分之二的情况下都是错误的。
Type 类型:编码agent和抽象对象之间的性质,包括四种类型:
- 断言命题(assertion propositions)
- 信念命题(belief propositions)
- 事实(fact)
- 可能性(eventualities)
在具体标注中,Type类型分别对应以下四种标注:
- 表示沟通的动词,标注为
Comm
,例如say, mention, claim, argue, explain等 - 表示命题态度的词,标注为
PAtt
,例如 believe, think, expect, suppose, imagine等 - 实格动词和半实格动词,标注为
Ftv
,例如 regret, forget, remember, know, see, hear等 - 控制动词,标注为
Ctrl
,例如persuade, permit, promise, intend, want, expect等。
Scopal polarity极性:识别表面上(或语法上)否定了归因动词,实际上否定了argument,通俗点说,就是否定转移,具体例子如下图,实际上表达额意思是I think it’s not a main consideration
,如果存在这种模式,相应argument,标注为Neg
,例子中,Arg2标注为Neg
。其他情况默认为Null
Determinacy确定性:在特定的范围内,对关系或argument的归因可以被取消,比如在否定、条件句或不定式的范围内,通俗一点说,就是归因存在不确定性。例如下图中的例子,因为有动词不定式“to think”的存在,无法确定后面的argument应该归因到谁。
这种不确定性由值Indet
表示,而确定则默认用Null
标记
归因和语篇关系是不同的,它们涉及的对象不一样,前者涉及agents和抽象对象,后者涉及两个抽象对象。在RST-Bank 和GraphBank中以相同的方式处理归因和语篇关系,结果是产生了不必要地复杂语篇结构。
github上放出的数据
更具体的信息可以看标注手册