Serverless 实战：如何结合 NLP 实现文本摘要和关键词提取？

最新推荐文章于 2024-07-17 20:34:08 发布

Serverless

最新推荐文章于 2024-07-17 20:34:08 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/weixin_42409476/article/details/105982010

版权

本文介绍了如何结合Serverless架构和NLP技术，实现文本摘要和关键词提取功能。通过关键词提取和提取式文本摘要方法，利用SnowNLP库进行文本处理，最终部署为API。文章探讨了Serverless架构在API开发中的便利性，并提供了项目文件和部署教程。

摘要由CSDN通过智能技术生成

对文本进行自动摘要的提取和关键词的提取，属于自然语言处理的范畴。提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值，是否需要进行更加详细的阅读；而提取关键词的好处是可以让文章与文章之间产生关联，同时也可以让读者通过关键词快速定位到和该关键词相关的文章内容。

文本摘要和关键词提取都可以和传统的 CMS 进行结合，通过对文章 / 新闻等发布功能进行改造，同步提取关键词和摘要，放到 HTML 页面中作为 Description 和 Keyworks。这样做在一定程度上有利于搜索引擎收录，属于 SEO 优化的范畴。

关键词提取

关键词提取的方法很多，但是最常见的应该就是tf-idf了。

通过jieba实现基于tf-idf关键词提取的方法：

jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v'))

文本摘要

文本摘要的方法也有很多，如果从广义上来划分，包括提取式和生成式。其中提取式就是在文章中通过TextRank等算法，找出关键句然后进行拼装，形成摘要，这种方法相对来说比较简单，但是很难提取出真实的语义等；另一种方法是生成式，通过深度学习等方法，对文本语义进行提取再生成摘要。

如果简单理解，提取式方式生成的摘要，所有句子来自原文，而生成式方法则是独立生成的。

为了简化难度，本文将采用提取式来实现文本摘要功能，通过 SnowNLP 第三方库，实现基于TextRank的文本摘要功能。我们以《海底两万里》部分内容作为原文，进行摘要生成：

原文：

这些事件发生时，我刚从美国内布拉斯加州的贫瘠地区做完一项科考工作回来。我当时是巴黎自然史博物馆的客座教授，法国政府派我参加这次考察活动。我在内布拉斯加州度过了半年时间，收集了许多珍贵资料，满载而归，3 月底抵达纽约。我决定 5 月初动身回法国。于是，我就抓紧这段候船逗留时间，把收集到的矿物和动植物标本进行分类整理，可就在这时，斯科舍号出事了。我对当时的街谈巷议自然了如指掌，再说了，我怎能听而不闻、无动于衷呢？我把美国和欧洲的各种报刊读了又读，但未能深入了解真相。神秘莫测，百思不得其解。我左思右想，摇摆于两个极端之间，始终形不成一种见解。其中肯定有名堂，这是不容置疑的，如果有人表示怀疑，就请他们去摸一摸斯科舍号的伤口好了。我到纽约时，这个问题正炒得沸反盈天。某些不学无术之徒提出设想，有说是浮动的小岛，也有说是不可捉摸的暗礁，不过，这些个假设通通都被推翻了。很显然，除非这暗礁腹部装有机器，不然的话，它怎能如此快速地转移呢？同样的道理，说它是一块浮动的船体或是一堆大船残片，这种假设也不能成立，理由仍然是移动速度太快。那么，问题只能有两种解释，人们各持己见，自然就分成观点截然不同的两派：一派说这是一个力大无比的怪物，另一派说这是一艘动力极强的“潜水船”。哦，最后那种假设固然可以接受，但到欧美各国调查之后，也就难以自圆其说了。有哪个普通人会拥有如此强大动力的机械？这是不可能的。他在何地何时叫何人制造了这么个庞然大物，而且如何能在建造中做到风声不走漏呢？看来，只有政府才有可能拥有这种破坏性的机器，在这个灾难深重的时代，人们千方百计要增强战争武器威力，那就有这种可能，一个国家瞒着其他国家在试制这类骇人听闻的武器。继夏斯勃步枪之后有水雷，水雷之后有水下撞锤，然后魔道攀升反应，事态愈演愈烈。至少，我是这样想的。

通过 SnowNLP 提供的算法：

from snownlp import SnowNLP

text = " 上面的原文内容，此处省略 "
s = SnowNLP(text)
print("。".join(s.summary(5)))

输出结果：

自然就分成观点截然不同的两派：一派说这是一个力大无比的怪物。这种假设也不能成立。我到纽约时。说它是一块浮动的船体或是一堆大船残片。另一派说这是一艘动力极强的“潜水船”

初步来看，效果并不是很好，接下来我们自己计算句子权重，实现一个简单的摘要功能，这个就需要jieba：

import re
import jieba.analyse
import jieba.posseg


class TextSummary:
    def __init__(self, text):
        self.text = text

    def splitSentence(self):
        sectionNum = 0
        self.sentences = []