1.文本自动摘要的分类
此处只介绍两种,一种是依据输入文本数量划分,一种是摘要和原文的关系划分。
根据输入文本的数量划分,文本摘要技术可以分为单文档摘要和多文档摘要;
根据文摘和原文的关系划分,可以分为摘录式(extraction)文摘和生成式(abstraction)文摘。摘录型文摘由原文中抽取出来的片段组成,理解型文摘是对原文只要内容重新组织后形成的。
2.文本自动摘要的基本步骤
一般来说,自动文摘过程包括三个基本步骤:
(1)文本分析过程:对原文进行分析处理,识别出冗余信息;
(2)文本内容的选取和泛化过程:从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;
(3)文摘的转换和生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性
文摘的输出形式依据文摘的用途和用户需求确定。不同的系统所采用的具体实现方法不同,因此在不同的系统中,上述几个模块所处理的问题和采用的方法也有所差异。
3.文本自动摘要的基本问题
在单文档摘要系统中,一般都采取基于抽取的方法。而对于多文档而言,由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异,因此如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常以为着要在句子层以下做工作,如对句子进行压缩,合并,切分等。另外,单文档的输出句子一般是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的得到每个句子的时间信息,也是多文档摘要需要解决的一个问题。
正如前面所说,自动文摘过程包含三个基本步骤,实现这些基本步骤的方法可以使基于句子抽取的,也可以是基于内容理解的。无论哪种方法,都必须面对三个关键问题:
(1)文档冗余信息的识别与处理
(2)重要信息的辨认
(3)生成文摘的连贯性
4.抽取式摘要优化点
(1)特征提取过程中,除了特征词的提取,还可以提取其他的基本要素来确定句子的重要性。如,句子的基本要素通过三元组<中心词,修饰,关系>来描述,其中中心词为该三元组的重要组成部分。
(2)在提取关键词之前,去掉停用词,然后在你计算词频等信息。为了扩展相同主题下可能出现的同义词现象,可以考虑利用同义词或者替换词、别称等信息提高词频统计的准确性。
(3)通过橘子的类型,对句子进行一次筛选。如,一般情况下,划分句子的时候可以记录句子出现的位置信息,在段落的开头或者结尾会有较大可能出现关键词。句型方面,陈述句一般比感叹句或者疑问句更有可能出现关键词。
(4)针对多文本输入的情况,在关键词提取中,可以使用频繁项集挖掘,并对频繁项集挖掘得到的词项赋予较高权重。
为了减少摘要句子之间的冗余度,可以通过计算句子之间的相似度减少冗余句子,具体过程如下:
(1)将句子按照其重要性由高到低排序
(2)抽取重要性较高的句子Si
(3)选取候选句子Si后,调整剩下的每个待选句子的重要性。待选句子Sj的重要性按照公式:Score(Sj)=Score(Sj)-Sim(Si,Sj)*Score(Si)
(4)剩下句子的重要度按照从高到低的顺序进行排序,选取重要度较高的句子。
(5)重复步骤3、4,直至摘要足够长为止。