文本自动摘要发展历程
看了近70年文本自动摘要研究综述,简单记录一下文本自动摘要的发展历程和方法。
文本摘要通常是指从单个或多个文档中产生一段文本,该文本传达了原始文本的主要信息。
文本自动摘要是20世纪50年代出现的一种用计算机完成的文本摘要技术,帮助人们从信息海洋中解放,提高信息的使用效率。
自动摘要研究是从抽取式摘要开始的。
1.抽取式自动摘要
根据词频确定词权重:首先对所有词出现的频率进行统计;根据经验确定一个频率区间,区间内为重要词,区间外的词是高频词和低频词视为噪音;对于文章中包含重要词和不超过四个非重要词的句子,被选中为候选句,句子的重要性得分按照公式(1)计算:
其中,sign代表括号内的重要词数,n代表括号中的总词数。根据对候选句计算重要性得分高低进行排序,选出若干最高得分的句子作为摘要。
后来又加入了句子位置作为特征,在段落中85%的主题句位于段首,7%的主题句处于段尾。词频、句子位置、线索词、标题词这四个特征是早期抽取式自动摘要使用的主要特征。
2.利用外部资源的方法
随着自动摘要研究的深入,研究人员不再满足于简单统计文本本身的特征,开始借助外部资源来辅助确定文档中的词权重、获取词间语义关系等,从而识别重要句子。常用外部资源有背景语料、同义词典、知识库等,较为著名的方法有TF-IDF、词汇链等方法。
TF-IDF的基本思想是:在一个语料库中,一个词的重要性于词频正相关,于包含它的文档数负相关。思路是:根据背景语料库统计各个词的TF-IDF值,作为词的重要性得分,然后计算文章各句的的词的TF-IDF和,作为句子的重要性得分,抽取最重要的句子作为摘