文本自动摘要发展历程

文本自动摘要发展历程

看了近70年文本自动摘要研究综述,简单记录一下文本自动摘要的发展历程和方法。

 

文本摘要通常是指从单个或多个文档中产生一段文本,该文本传达了原始文本的主要信息。

文本自动摘要是20世纪50年代出现的一种用计算机完成的文本摘要技术,帮助人们从信息海洋中解放,提高信息的使用效率。

自动摘要研究是从抽取式摘要开始的。

1.抽取式自动摘要

  根据词频确定词权重:首先对所有词出现的频率进行统计;根据经验确定一个频率区间,区间内为重要词,区间外的词是高频词和低频词视为噪音;对于文章中包含重要词和不超过四个非重要词的句子,被选中为候选句,句子的重要性得分按照公式(1)计算:

其中,sign代表括号内的重要词数,n代表括号中的总词数。根据对候选句计算重要性得分高低进行排序,选出若干最高得分的句子作为摘要。

后来又加入了句子位置作为特征,在段落中85%的主题句位于段首,7%的主题句处于段尾。词频、句子位置、线索词、标题词这四个特征是早期抽取式自动摘要使用的主要特征。

 

2.利用外部资源的方法

  随着自动摘要研究的深入,研究人员不再满足于简单统计文本本身的特征,开始借助外部资源来辅助确定文档中的词权重、获取词间语义关系等,从而识别重要句子。常用外部资源有背景语料、同义词典、知识库等,较为著名的方法有TF-IDF、词汇链等方法。

  TF-IDF的基本思想是:在一个语料库中,一个词的重要性于词频正相关,于包含它的文档数负相关。思路是:根据背景语料库统计各个词的TF-IDF值,作为词的重要性得分,然后计算文章各句的的词的TF-IDF和,作为句子的重要性得分,抽取最重要的句子作为摘

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值