文本自动摘要发展历程

最新推荐文章于 2023-12-27 17:54:42 发布

Qamra_Chen

最新推荐文章于 2023-12-27 17:54:42 发布

阅读量1.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Qamra_Chen/article/details/88401092

版权

文本自动摘要发展历程

看了近70年文本自动摘要研究综述，简单记录一下文本自动摘要的发展历程和方法。

文本摘要通常是指从单个或多个文档中产生一段文本，该文本传达了原始文本的主要信息。

文本自动摘要是20世纪50年代出现的一种用计算机完成的文本摘要技术，帮助人们从信息海洋中解放，提高信息的使用效率。

自动摘要研究是从抽取式摘要开始的。

1.抽取式自动摘要

　　根据词频确定词权重：首先对所有词出现的频率进行统计；根据经验确定一个频率区间，区间内为重要词，区间外的词是高频词和低频词视为噪音；对于文章中包含重要词和不超过四个非重要词的句子，被选中为候选句，句子的重要性得分按照公式（1）计算：

其中，sign代表括号内的重要词数，n代表括号中的总词数。根据对候选句计算重要性得分高低进行排序，选出若干最高得分的句子作为摘要。

后来又加入了句子位置作为特征，在段落中85%的主题句位于段首，7%的主题句处于段尾。词频、句子位置、线索词、标题词这四个特征是早期抽取式自动摘要使用的主要特征。

2.利用外部资源的方法

　　随着自动摘要研究的深入，研究人员不再满足于简单统计文本本身的特征，开始借助外部资源来辅助确定文档中的词权重、获取词间语义关系等，从而识别重要句子。常用外部资源有背景语料、同义词典、知识库等，较为著名的方法有TF-IDF、词汇链等方法。

　　TF-IDF的基本思想是：在一个语料库中，一个词的重要性于词频正相关，于包含它的文档数负相关。思路是：根据背景语料库统计各个词的TF-IDF值，作为词的重要性得分，然后计算文章各句的的词的TF-IDF和，作为句子的重要性得分，抽取最重要的句子作为摘

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文本自动摘要发展历程

文本自动摘要发展历程看了近70年文本自动摘要研究综述，简单记录一下文本自动摘要的发展历程和方法。文本摘要通常是指从单个或多个文档中产生一段文本，该文本传达了原始文本的主要信息。文本自动摘要是20世纪50年代出现的一种用计算机完成的文本摘要技术，帮助人们从信息海洋中解放，提高信息的使用效率。自动摘要研究是从抽取式摘要开始的。1.抽取式自...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。