论文笔记--Extractive Summarization as Text Matching
1. 文章简介
- 标题:Extractive Summarization as Text Matching
- 作者:Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang, Xipeng Qiu, Xuanjing Huang
- 日期:2020
- 期刊:arxiv preprint
2. 文章概括
文章将摘要抽取问题转化为文本匹配问题:文章认为,高质量的摘要相比于低质量的摘要和源文档之间更相似。在此基础上,文章提出了一种文档级别的抽取式摘要框架MATCHSUM。MATCHSUM在6个数据集上给出了不错的结果。
此外,文章做了一系列研究比较了文档级别和句子级别摘要抽取方法的差异。
3 文章重点技术
3.1 Sentence-Level(SEN) VS Summary-Level(SUM)
已经有文献指出SEN的摘要抽取能力有效,但没有文献指出SEN和SUM的优劣,以及各自的应用场景。为此文章在6个数据集上面对上述问题进行了系统的研究。
定义文档
D
=
{
s
1
,
…
,
s
n
}
D=\{s_1, \dots, s_n\}
D={s1,…,sn}为一篇包含
n
n
n个句子文档,
C
=
{
s
1
,
…
,
s
k
∣
s
i
∈
D
}
C=\{s_1, \dots, s_k | s_i \in D\}
C={s1,…,sk∣si∈D}为
D
D
D的一个候选摘要,由
D
D
D中的
k
k
k个句子组成。给定
D
D
D的标准摘要为
C
∗
C^*
C∗,那么可以通过如下指标来评估一个候选摘要:
- Setence-Level Score: g s e n ( C ) = 1 ∣ C ∣ ∑ s ∈ C R ( s , C ∗ ) g^{sen}(C) = \frac 1{|C|} \sum_{s\in C}R(s, C^*) gsen(C)=∣C∣1∑s∈CR(s,C∗),其中 ∣ C ∣ |C| ∣C∣表示 C C C中包含的句子数, s s s为 C C C中的句子, R R R表示平均ROUGE score。简单来说,Sentence-Level Score表示候选摘要中所有句子ROUGE得分的平均值。
- Summary-Level Score: g s u m ( C , C ∗ ) g^{sum}(C, C^*) gsum(C,C∗),即直接计算候选摘要和标准摘要的ROUGE score。
有了上述得分,我们定义Pearl-Summary(PS):任意摘要,如果存在其它候选摘要的
g
s
u
m
g^{sum}
gsum比它高,但
g
s
e
n
g^{sen}
gsen比它低,则我们称其为一个Pearl-Summary。定义**Best-Summary(BS)**为所有候选摘要中
g
s
u
m
g^{sum}
gsum最高的摘要。句子级别的摘要抽取模型会以选择到PS为目标
对每个文档,我们将其所有候选摘要按照
g
s
e
n
g^{sen}
gsen排序,找到它的BS
C
^
\hat{C}
C^的位置
z
z
z。如果
z
=
1
,
z=1,
z=1,那么BS由最好的句子组成(即在sentence-level也是最好);如果
z
>
1
z>1
z>1,则最好的句子组成的summary不是summary-level的BS,换句话说,BS是一个PS(即存在其它C在sentence级别比它好,但是summary级别不如它);
z
z
z越大,有越多的
C
C
C在sentence level优于BS,那么基于sentence-level的提取就会很困难。我们在6个数据集上得到的
z
z
z值分布如下,可以看到大部分数据集的BS不是由最好的句子构成的,对于CNN/DM,WikiHow,Multi-News这些数据集来说,很少一部分的BS不是PS,这样依赖句子级别的摘要抽取就会变得很困难。
上述实验证明了SUM比SEN更有效,那么相比于SEN,SUM提升了多少呢?我们取
α
s
e
n
(
D
)
=
max
C
g
s
e
n
(
C
)
,
α
s
u
m
(
D
)
=
max
C
g
s
u
m
(
C
)
\alpha^{sen}(D) = \max_{C} g^{sen}(C), \alpha^{sum}(D) = \max_{C} g^{sum}(C)
αsen(D)=Cmaxgsen(C),αsum(D)=Cmaxgsum(C)分别为SEN和SUM score的上界。则相比于SEN,SUM的潜在收益为
Δ
(
D
)
=
α
s
u
m
(
D
)
−
α
s
e
n
(
D
)
\Delta(D) = \alpha^{sum}(D)- \alpha^{sen}(D)
Δ(D)=αsum(D)−αsen(D)。对数据集中的所有文档集合
D
\mathcal{D}
D,SUM的潜在收益为
1
∣
D
∣
∑
D
∈
D
Δ
(
D
)
.
\frac 1{|\mathcal{D}|} \sum_{D\in \mathcal{D}} \Delta(D).
∣D∣1D∈D∑Δ(D).
在六个数据集上进行了潜在收益计算,下表为数据集的基本情况 下图为6个数据集上的潜在收益。可以看到
- 对于Reddit和XSum,摘要包含句子数为2,总体收益不高
- 对于PushMed和Multi-News,摘要句子为6和9,句子数较多,摘要存在一定程度的语义重叠,从而收益不高
- 对于CNN/DM和WikiHow,句子数量适中,SUM的收益较为明显。
3.2 抽取式摘要转换为文本匹配问题
文章认为,一个好的摘要应该和源文本尽可能相似。在此idea基础上,文章采用了Siamese-Bert双塔式BERT模型进行文本相似度计算[1]。直接采用源文档和摘要的[CLS]token作为二者表示,并进行cosine相似度计算。
类似[1],文章直接采用triplet-loss来对原始BERT进行微调:高质量摘要和源文本的相似度高于低质量摘要和源文档的相似度,从而有损失函数
L
1
=
max
(
c
o
s
i
n
e
_
s
i
m
(
D
,
C
)
−
c
o
s
i
n
e
_
s
i
m
(
D
,
C
∗
)
+
γ
1
)
.
\mathcal{L}_1= \max (cosine\_sim(D, C) - cosine\_sim(D, C^*) + \gamma_1).
L1=max(cosine_sim(D,C)−cosine_sim(D,C∗)+γ1).
另一方面,我们对文档
D
D
D的所有候选摘要进行排序。候选
C
i
C_i
Ci和
C
j
(
j
>
i
)
C_j(j >i)
Cj(j>i)的排名相差越大(
j
−
i
j-i
j−i越大),损失函数中margin值的权重越高,从而限制差值越小。损失函数为
L
2
=
max
(
c
o
s
i
n
e
_
s
i
m
(
D
,
C
j
)
−
c
o
s
i
n
e
_
s
i
m
(
D
,
C
i
)
+
(
j
−
i
)
γ
2
)
.
\mathcal{L}_2 = \max (cosine\_sim(D, C_j) - cosine\_sim(D, C_i) + (j-i)\gamma_2).
L2=max(cosine_sim(D,Cj)−cosine_sim(D,Ci)+(j−i)γ2).
最终的损失函数为
L
=
L
1
+
L
2
.
\mathcal{L} = \mathcal{L}_1 + \mathcal{L}_2.
L=L1+L2.
3.3 Candidate Pruning候选剪枝
上述过程如果对任意两个候选摘要进行比较可能会产生组合爆炸。为此文章先增加一个content selection模块来选择比较典型的句子:模型给每个句子一个得分表示其与当前文档的关联度,然后剪裁与当前文档无关的句子
具体来说,文章采用BERTSUM模型来进行得分计算,选择
e
x
t
ext
ext个句子作为修建之后的文档,然后得到
e
x
t
ext
ext中所有
s
e
l
sel
sel个句子的组合,并按照原始文档中的顺序排序,得到所有候选摘要。最后再通过上述方法进行微调。
4. 文章亮点
文章系统地证明了摘要级别的摘要抽取效果要好于句子级别的摘要抽取。另一方面,文章提出了一种基于文本匹配方式的摘要级别抽取方式MATCHSUM,在6个数据集上都有着均给出了SOTA结果。
5. 原文传送门
Extractive Summarization as Text Matching
6. References
[1] 论文笔记–Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks