自动文摘技术概要
文本自动文摘(automatic summarization/abstracting)是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。
在目前的研究中,已经有很多技术被用于解决文本的自动摘要生成。有的研究针对文档中所包含的句子进行排序,使用句子权重较大的句子构成文档的摘要;也有的研究将自动摘要生成问题视为对文档中的句子进行多分类的问题,利用统计学习的方法对文档中的句子进行分类吗,进而生成对应的文档的摘要。最近随着深度学习的流行,已经有大量的研究使用神经模型进行文本摘要的自动生成。
自动文摘的分类
按照不同的标准可以将自动文本摘要分成不同的类型,可以按照以下5个标准进行分类:功能、输入文本数量、原文语言、摘要和原文的关系、摘要的应用等。
按照文摘的功能划分,可以分成3类:
- 指示型文摘(Indicative)
- 报道型文摘(Informative)
- 评论型文摘(Evaluative)
按照输入文本的数量,可以分成:
- 单文档摘要(Single-document Summarization)
- 多文档摘要(Multi-document Summarization)
按照原文语言划分:
- 单语言摘要(Monoligual)
- 跨语言摘要(Crosslingual)
根据摘要和原文的关系可以分成:
- 摘录型文摘(Extractive)
- 理解型文摘(Abtractive)
根据摘要的应用进行划分:
- 普通型文摘(Generic)
- 面向用户查询的文摘(query-oriented)
自动文摘的处理
对于自动文摘的生成,可以概括为3个主要过程:
- 文本分析:对原文本进行分析处理,识别冗余信息(尤其在多文档自动摘要生成时);
- 文本内容的选取和泛化:从文档中识别重要信息,通过摘录或者概括的方法(或通过计算分析的方法)对文本进行压缩;
- 文本转换和生成:对原文内容进行重组或根据内部表示生成文摘。
多文档自动摘要的生成
目前,多文档自动摘要生成方法同城涉及到更广泛的技术问题,因此多文档摘要自动生成技术受到研究人员的广泛关注。多文档文摘是将同一个主题下的多个文本描述的主要信息按压缩比提炼出一个文本的自然语言处理技术。
目前,无论是单文档摘要还是多文档摘要,采用的方法一般为基于抽取的方法(extracting method)或称摘录型方法和基于理解的方法(abstracting method)。在单文档摘要中,一般采用前者。但对于多文档来说,不同主题下的文档中不可避免的存在信息重叠和信息差异,因此,如何避免信息重叠并且反映出不同文档的信息差异是其首要目标。为了实现该目标,需要在句子层做以下工作:压缩、合并、切分等。所以,多文档摘要面临的问题更加复杂。
另外,单文档的输出句子一般都按照句子在原文中出现的顺序排 列,而在多文档摘要中,大都采用时间顺序排列句子,如何准确地得到 每个句子的时间信息,也是多文档文摘中需要解决的一个重要问题。
自动文摘过程通常包括三个基本步骤,但实现基本步骤的方法可以是基于句子抽取的,也可以是基于内容理解的,或者是基于结构分析的或其他方法。但无论采用什么样的方法,都必须面对三个关键问题:
- 文档冗余信息的识别和处理;
- 重要信息的识别;
- 生成摘要的连贯性;
以下将简单介绍解决上述关键问题的方法。
冗余信息的识别
通常有两种方法:
- 聚类:测量所有句子对之间的相似性,然后用聚类方法识别公共信息的主题;
- 候选法:系统首先测量候选文段与已选文段之间的相似度,仅当候选段有足够的新信息时才将其入选;如最大边缘相关法MMR(maximal marginal relevance);
重要信息的辨别
主要有两种方法:
- 抽取法:选出每个聚类中有代表性的部分(一般为句子),默认这些代表性的部分(句子)可以表达这个聚类中的主要信息;
- 信息融合法:目的是要生成一个简洁、通顺并能反映这些句子(主题)之间共同信息的句 子。为达到这个目标,要识别出对所有入选的主题句都共有的短语,然后将之合并起来。由于集合意义上的句子交集效果并不理想,因此,需要一些其他技术来实现融合,这些技术包括句法分析技术、计算主题交 集(theme intersection)等;
确保文摘的一致性和连贯性
需要对句子进行排序,主要有两种方法:
- 时间排序法(chronological ordering):一般选定某一个时间为参考点,然后计算其他相对时间的绝对时间;
- 扩张排序算法(augmented algorithm):目的是试图通过将有一定内容相关 性的主题(topically related themes)放在一起来降低不流畅性;
虽然很多学者致力于理解式方法的研究,但摘录型的摘要方法仍是实用性自动摘要的主流方法。已有的摘录型方法的主要思路是从文章中提取特征,然后采用有监督或者无监督的机器学习方法对句子进行分类、打分,并进行句子抽取和排序。
文摘评测
文摘自动评测是自然语言处理中比较棘手的问题,相对于机器翻 译、信息检索等其他技术的评测更加困难,因为理论上根本没有完美的摘要作参考。
传统的评价方法主要是人工审查,通过以下几个指标来评价摘要的质量:一致性、简洁性、文法合理性、可读性和内容含量。在DUC(Document Understanding Conference)评测中,主要有5项人工评测指标:
- 文摘的合乎语法性(grammaticality)
- 非冗余性(non-redundancy)
- 指代的清晰程度(referential clarity)
- 聚焦情况 (focus)
- 结构及一致性(structure and coherence)
有研究者曾将文摘自动评估方法分成两类:
- 内部 (intrinsic)评价方法:与文摘系统的目的相关,它通过直接分析摘要的质量来评价文摘系统;
- 外部(extrinsic)评价方法:它是 一种间接的评价方法,与系统的功能相对应,将文摘应用于某一个特定的任务中,根据摘要功能对特定任务的效果来评价自动文摘系统的性能,如对于信息检索任务而言,可以对比采用摘要进行检索与采用原文进行检索的准确率差异,通过文摘对检索系统的效果来评价文摘系统的性能;
内部评价方法
这种评价方法源于信息抽取技术,可以按信息的覆盖面和正确率来评价文摘的质量,一般采用将系统结果与“理想摘要”相比较的方法。在信息抽取评测中,将原文的关键要点抽取出来,然后与人工抽取的内容相比较,计算其召回率(recall)、准确率(precision)、 冗余率(overgeneration)和偏差率(fallout)等几个指标。
r
e
c
a
l
l
=
c
o
r
r
e
c
t
+
(
p
a
r
t
i
a
l
×
0.5
)
p
o
s
s
i
b
l
e
recall=\frac{correct+(partial \times 0.5)}{possible}
recall=possiblecorrect+(partial×0.5)
r
e
c
a
l
l
=
c
o
r
r
e
c
t
+
(
p
a
r
t
i
a
l
×
0.5
)
a
c
t
u
a
l
recall=\frac{correct+(partial \times 0.5)}{actual}
recall=actualcorrect+(partial×0.5)
o
v
e
r
g
e
n
e
r
a
t
i
o
n
=
s
p
u
r
i
o
u
s
a
c
t
u
a
l
overgeneration=\frac{spurious}{actual}
overgeneration=actualspurious
f
a
l
l
o
u
t
=
i
n
c
o
r
r
e
c
t
+
s
p
u
r
i
o
u
s
p
o
s
s
i
b
l
e
i
n
c
o
r
r
e
c
t
fallout=\frac{incorrect+spurious}{possible incorrect}
fallout=possibleincorrectincorrect+spurious
其中:
- correct:正确的响应数;
- partial:部分正确的响应数;
- possible:所有可能的答案数,包括两部分,一部分为答案数,另一部分是候选答案中与系统响应匹配的个数;
- actual:系统给出的实际响应个数;
- spurious:伪响应数,本来没有答案但系统给出的多余(superfluous)响应;
- incorrect:不正确的响应数;
- possible incorrect:可能不正确的答案数,可以用possible数减去正确的答案数来计算;
- overgeneration:测试的是系统生成的伪响应的比率
- fallout:测试的是可能不正确的答案中系统错误响应和伪响应所占的比率;
内部评价方法存在的主要困难是“理想摘要”的获得问题,而外部评测方法则与测试的特定任务密切相关。
一般地,内部评测方法又可分为两类:
- 形式度量(form metrics):侧重于语法、全文的连贯性和组织结构;
- 内容度量(content metrics)
一种典型的方法是,系统输出与一个或多个人工的理想摘要做逐句的或者逐片段的比较来计算召回率和精确率;另一种常用的方法包括kappa方法和相对效用方法(relative utility),这两种方法都是通过随机地抽取原文中的一些段落,测试系统对应这些段落产生的摘要质量来评测系统整体性能的。
最近的研究中,用于自动文摘生成的评测方法主要有两个:
- BLEU:基于机器翻译系统评测中的评分方法提出了一种文摘自动评测方法[2];
- ROUGE:对BLEU方法加以改进,提出并实现了基于最长公共子串和指定句子内词对的共现统计的评测方法 (ROUGE),并证明该评测方法与人工评测具有很好的一致性[3];
参考文献
[1] 统计自然语言处理(第二版),宗成庆 著,清华大学出版社
[2] Chin-Yew Lin Eduard H. Hovy From Single to Multi-document Summarization. 457-464 ACL 2002
[3] Chin-Yew Lin Franz Josef Och Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics. 605-612 ACL 2004
备注
- 本书(参考文献)的第一篇读书笔记
- 未来打算整理成专栏
- 详细深入了解参考原书