基于开源文本摘要模块sumy的文本摘要生成实践

Together_CZ

已于 2022-05-06 13:36:02 修改

阅读量3.4k

点赞数

分类专栏： python实践文章标签：自然语言处理机器翻译人工智能

于 2020-07-28 09:31:52 首次发布

本文链接：https://blog.csdn.net/Together_CZ/article/details/107628462

版权

python实践专栏收录该内容

320 篇文章

订阅专栏

本文介绍了自然语言处理(NLP)中的文本摘要生成方法，通过sumy模块实现了基于URL、明文和文件数据的摘要生成。sumy是一个自动文本摘要生成模块，支持多种摘要方法，如LSA。文中通过具体实例展示了不同数据类型摘要的实现过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自然语言处理领域中有很多的子任务，大类上一共分为四个板块，如下：

1. 序列标注：分词/POS Tag/NER/语义标注
2. 分类任务：文本分类/情感计算
3. 句子关系判断：Entailment/QA/自然语言推理
4. 生成式任务：机器翻译/文本摘要

在我接触NLP相关的工作以来，任务1和任务2是比较常见的，后面两种则几乎没有什么接触，今天发现了一个比较有意思的自动文本摘要生成模块sumy，这个属于最后一个任务领域里面的内容，所以就当做入门实践来学习一下，早在之前也看多阮一峰大神的博客，对自动文本摘要生成已经有了一些浅薄的了解了，这里是博客文章地址：

http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html

个人感觉讲的是非常通俗易懂的，当初就是看着伪代码实现了一版最基础的方法，下面是源代码部分的内容：

Summarizer(originalText, maxSummarySize):

　　　　// 计算原始文本的词频，生成一个数组，比如[(10,'the'), (3,'language'), (8,'code')...]
　　　　wordFrequences = getWordCounts(originalText)

　　　　// 过滤掉停用词，数组变成[(3, 'language'), (8, 'code')...]
　　　　contentWordFrequences = filtStopWords(wordFrequences)

　　　　// 按照词频进行排序，数组变成['code', 'language'...]
　　　　contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

　　　　// 将文章分成句子
　　　　sentences = getSentences(originalText)

　　　　// 选择关键词首先出现的句子
　　　　setSummarySentences = {}
　　　　foreach word in contentWordsSortbyFreq:
　　　　　　firstMatchingSentence = search(sentences, word)
　　　　　　setSummarySentences.add(firstMatchingSentence)
　　　　　　if setSummarySentences.size() = maxSummarySize:
　　　　　　　　break

　　　　// 将选中的句子按照出现顺序，组成摘要
　　　　summary = ""
　　　　foreach sentence in sentences:
　　　　　　if sentence in setSummarySentences:
　　　　　　　　summary = summary + " " + sentence

　　　　return summary

更多的内容建议去作者博客里面去看，我这里就不多在累述了。

接下来进入正文，sumy地址在这里。

首页截图如下所示：

作者的介绍也很清晰明了，就是一个自动文本摘要生成模块。

看过了一些基础的介绍以及API使用说明后，这里就想做一些实践，先给出来完整的代码实现：

#!usr/bin/env python
#encoding:utf-8
from __future__ import division


'''
__Author__:沂水寒城
功能：基于开源模块sumy的简单文本摘要
文本摘要方法参考学习可以借鉴阮一峰下面的文章：
http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html
'''


from sumy.nlp.stemmers import Stemmer
from sumy.utils import get_stop_words
from sumy.parsers.html import HtmlParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.parsers.plaintext import PlaintextParser
from sumy.summarizers.lsa import LsaSummarizer as Summarizer


#设置输出句子总数
SENTENCES_COUNT = 10



def urlContentSummary(url,language):
    '''
    基于URL内容的文本的摘要方法
    '''
    parser = HtmlParser.from_url(url, Tokenizer(language))
    stemmer = Stemmer(language)
    summarizer = Summarizer(stemmer)
    summarizer.stop_words = get_stop_words(language)
    for sentence in summarizer(parser.document, SENTENCES_COUNT):
        print(sentence)


def plainTextSummary(data,language):
    '''
    基于明文数据内容的摘要方法
    '''
    parser = PlaintextParser.from_string(data, Tokenizer(language))
    stemmer = Stemmer(language)
    summarizer = Summarizer(stemmer)
    summarizer.stop_words = get_stop_words(language)
    for sentence in summarizer(parser.document, SENTENCES_COUNT):
        print(sentence)


def fileDataSummary(files,language):
    '''
    基于文件数据内容的摘要方法
    '''
    parser = PlaintextParser.from_file(files, Tokenizer(language))
    stemmer = Stemmer(language)
    summarizer = Summarizer(stemmer)
    summarizer.stop_words = get_stop_words(language)
    for sentence in summarizer(parser.document, SENTENCES_COUNT):
        print(sentence)


if __name__ == "__main__":
    url="https://m.gmw.cn/baijia/2020-07/28/1301403267.html"
    data="""中国应对疫情为何越发从容
            07-28 08:22
            最近，疫情防控的好消息不少。
            先是北京，用40天的时间基本控制住了一波突发疫情，重大突发公共卫生事件应急响应级别由二级调至三级。
            接着，乌鲁木齐市疾控中心表示，该市已基本控制了聚集性疫情的风险，核酸检测累计超百万人份。
            同时，武汉一位进行了换肺手术的新冠肺炎患者，一度被认为“救不过来”了，在住院166天后出院了。
            从这些事实可以看出，自从中国进入疫情零星散发、局部暴发风险并存的阶段后，疫情防控的反应越来越快，措施越来越准，效果越来越好，民众对于国家疫情防控水平的认可越来越高。当然，能达到这样从容不迫的阶段，也是经过了一个过程。
            记得年初武汉刚刚发生疫情的时候，因为对病毒的认知不多，对疫情的走向看不清，社会上一度非常紧张。大家宅在家里，心里每天揪着，七上八下的。
            武汉保卫战之后，国家宣布进入疫情防控常态化阶段，很多人还不理解，觉得疫情好不容易已经过去了，可以长松一口气了。结果，一方面境外输入案例增多，边境地区防控压力加大，一方面本土新增案例还在出现，尤其是6月初北京发生了疫情，都在不断提醒人们，不可对疫情防控麻痹大意，思想松懈不得，病毒还未退却，找准时机还会发动突袭，于是大家对疫情防控常态化的认识更加深入，更加理解。
            社会上的信心，根本上来自国家已经形成了一套行之有效的疫情应对策略，工具箱里各种工具种类充足，使用空间充分。应急响应级别及时调整、诊疗方案不断更新、医务人员操作更加熟练、流行病学调查愈加缜密、各方面应对经验持续积累……于是人们看到，疫情在哪里出现苗头，就能在哪里被摁住，露头就打，不会让它肆意蔓延开来，该怎么着就怎么着，我们还怕什么？
            有了这样的全民疫情防控体系，每个人身在其中，既享受到了安全，又做出了贡献。去商场，戴口罩、测体温；去上班，自觉保持社交距离；去出差，做好核酸检测……真正做到了我为人人，人人为我。如此一来，整个社会才会运行得有条不紊、克难前行。经济能在二季度回正，就是最好的证明。
            没有什么能难倒中国人。也许困难刚来临的时候，确实会引发惊慌，有人会逃离，有人会绝望，有人会嘲讽，但是绝大部分中国人都能站稳脚跟，精诚团结，齐心面对。我们不后退，因为这是我们的家园；我们不颓废，因为有一大批为我们奋战的逆行者；我们有自信，因为我们能做到；我们有未来，因为我们是不屈的中国人。
            作者：熊 建
            声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。
            来源：人民日报海外版
            """

    urlContentSummary(url,'chinese')
    print('='*80)


    plainTextSummary(data,'chinese')
    print('='*80)


    fileDataSummary('test.txt','chinese')

从sumy模块的实现中看到，一共提供了三种文本数据摘要方法，分别是：基于url内容的摘要、基于明文数据的摘要和基于文件数据的摘要，我们上面的代码中分别对其进行了对比，选用的是今天百度推送的一篇新闻文章，地址如下：

https://m.gmw.cn/baijia/2020-07/28/1301403267.html

截图如下所示：

因为使用的是中文数据，所以language设置的是chinese，也可以使用英文数据，只需要将language修改为english即可。

三种方法使用的是同一份数据，结果输出如下所示：

方法一结果：

方法二结果：

方法三结果：

从结果直观来看，第一种方法和最后一种方法的结果一致，第二种方法产生的结果略有不同，可能也是跟内部的实现原理和方法不同有关系吧，今天是一个入门式的基础实践，后面有时间继续研究学习。