python实现英文新闻摘要自动提取_自然语言处理之自动摘要

最新推荐文章于 2022-09-21 11:10:29 发布

weixin_39616003

最新推荐文章于 2022-09-21 11:10:29 发布

阅读量1.5k

点赞数 1

文章标签： python实现英文新闻摘要自动提取

本文链接：https://blog.csdn.net/weixin_39616003/article/details/111453753

版权

利用计算机将大量的文本进行处理，产生简洁、精炼内容的过程就是文本摘要，人们可通过阅读摘要来把握文本主要内容，这不仅大大节省时间，更提高阅读效率。但人工摘要耗时又耗力，已不能满足日益增长的信息需求，因此借助计算机进行文本处理的自动文摘应运而生。近年来，自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。

自动摘要(Automatic Summarization)的方法主要有两种：Extraction和Abstraction。

Extraction是抽取式自动文摘方法，通过提取文档中已存在的关键词，句子形成摘要

Abstraction是生成式自动文摘方法，通过建立抽象的语意表示，使用自然语言生成技术，形成摘要。

由于自动摘要方法需要复杂的自然语言理解和生成技术支持，应用领域受限。抽取式摘要成为现阶段主流，它也能在很大程度上满足人们对摘要的需求。

目前抽取式的主要方法：

基于统计：统计词频，位置等信息，计算句子权值，再简选取权值高的句子作为文摘，特点：简单易用，但对词句的使用大多仅停留在表面信息。

基于图模型：构建拓扑结构图，对词句进行排序。例如，TextRank/LexRank

基于潜在语义：使用主题模型，挖掘词句隐藏信息。例如，采用LDA，HMM

基于线路规划：将摘要问题转为线路规划，求全局最优解。

2007年，美国学者的论文《A Survey on Automatic Text Summarization》(Dipanjan Das, Andre F.T. Martins, 2007)总结了目前的自动摘要算法。其中，很重要的一种就是词频统计。这种方法最早出自1958年的IBM公司科学家 H.P. Luhn的论文《The Automatic Creation of Literature Abstracts》。Luhn博士认为，文章的信息都包含在句子中，有些句子包含的信息多，有些句子包含的信息少。自动摘要就是要找出那些包含信息最多的句子。句子的信息量用”关键词”来衡量。如果包含的关键词越多，就说明这个句子越重要。Luhn提出用”簇”(cluster)表示关键词的聚集。所谓”簇”就是包含多个关键词的句子片段。

上图就是Luhn原始论文的插图，被框起来的部分就是一个”簇”。只要关键词之间的距离小于”门槛值”，它们就被认为处于同一个簇之中。Luhn建议的门槛值是4或5。也就是说，如果两个关键词之间有5个以上的其他词，就可以把这两个关键词分在两个簇。下一步，对于每个簇，都计算它的重要性分值。

以上图为例，其中的簇一共有7个词，其中4个是关键词。因此，它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。

Luhn的这种算法后来被简化，不再区分”簇”，

最低0.47元/天解锁文章

weixin_39616003

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python实现英文新闻摘要自动提取_自然语言处理之自动摘要

利用计算机将大量的文本进行处理，产生简洁、精炼内容的过程就是文本摘要，人们可通过阅读摘要来把握文本主要内容，这不仅大大节省时间，更提高阅读效率。但人工摘要耗时又耗力，已不能满足日益增长的信息需求，因此借助计算机进行文本处理的自动文摘应运而生。近年来，自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。自动摘要(Automatic Summarization)的方法主要有两种：Ex...
复制链接

扫一扫