原文链接:https://www.aclweb.org/anthology/2020.acl-main.444.pdf
摘要
- 提出了人工标注的基于关系抽取(RE)数据集对话框,旨在支持对出现在对话中的两个参数之间关系的预测。
- 通过对语料库和传统任务的异同分析,认为说话人相关信息(speaker-relatted information)在任务中起着至关重要的作用。
- 考虑到会话中交流的及时性,我们设计了一种新的度量方法来评估会话环境下RE方法的性能。并研究了几种具有代表性的RE方法的性能。
- 实验结果演示,在性能最好的模型上进行speaker-aware扩展,在标准环境和绘画环境下性能均提升。
1.介绍
主要工作
(1)提出了人工标注的基于关系抽取数据集DialogRE;
(2)比较基于对话的关系抽取任务和传统关系抽取任务的异同。
(3)设计新的度量方法评估交互会话的时效性。
(4)在数据集DialogRE上,使用标准的基于学习的关系抽取技术建立baseline。
(5)证实明确对话者在基于对话的关系抽取任务中的重要性。
2.数据集
数据集源于《Friends》中1788段对话,36种关系类型,10168个关系二元组(subject,relation type,object)。同时,标注了最小文本最小跨度。表1是一段对话的示例。
2.1 关系模式
2.2标注
定义
- turn:regard an uninterrupted stream of speech from one speaker and the name of this speaker as a turn.
- dialogue:the shortest snippet of contiguous turns that covers all annotated relational trips and sufficient supportive contests in this scene.
处理
- 如果说话者的全名或者其他名字出现在同一个对话中,我们将对话者作为一个关系元组的参数。如表1中关系R3
- 若一对参数有多种关系,每一个都标注。
- 如果有则标注一个触发词。如R1的触发词为brother,R3无触发词
- 标注反向的关系元组。如表1中R1和R2
2.3 负例生成,数据划分,匿名对话者
- 负例生成??
- 训练集:验证集:测试集合=6:2:2
- 匿名对话者如表1中S1,S2
3.数据比较与讨论
3.1DialogRE vs SF
3.2DialogRE vs 现存关系元组
3.3触发词
4.模型和方法
4.1基于对话的关系抽取
对话D中,共有m条语句(turn),表示为:D=s1:t1,s2:t2,…,sm:tm.有参数对(a1,a2).
标准模式:
把对话D看作文本d。
输入:a1,a2,d
输出:a1,a2 之间的关系
评价标准:F1
会话模式:
把前 i 条语句看作 d 。
L基于整段对话(D)标注的关系集;R表示36种关系集。
定义辅助函数:
j ( x ) = { m , x 未 在 D 中 出 现 i , x 在 第 i 条 对 话 中 首 次 出 现 j(x)=\begin{cases} m,& x未在D中出现 \\ i,& x在第i条对话中首次出现 \\ \end{cases} j(x)={
m,i,x未在D中出现x在第i条对话中首次出现
i ( r ) = { j ( λ r ) , r ∈ L , λ r 为 关 系 r 所 标 注 的 触 发 , 即 关 系 r 的 触 发 词 λ r 首 次 出 现 的 位 置 。 m , r ∈ L 的 其 他 情 况 1 , r ∈ R − L i(r)=\begin{cases} j(\lambda_r), & r\in L,\lambda _r为关系r所标注的触发,\\ &即关系r的触发词\lambda _r首次出现的位置。 \\ m, & r\in L的其他情况 \\ 1, & r\in R-L \end{cases} i(r)=