不想花时间阅读长篇文章?用Python NLTK获取文章摘要

介绍今天的互联网上有数以百万计的网页和网站。遍历大量内容对于提取有关某个主题的信息变得非常困难。Google会过滤搜索结果并为您提供排名前十的搜索结果,但是通常无法找到所需的正确内容。文章中有大量冗余和重叠的数据,这导致大量时间的浪费。解决此问题的更好方法是汇总大量可用的文本数据,以较短的版本显示。本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。文本摘要文本摘要是一种NLP(自然语言处理)技术,可从大量数据中提取文本,目标是创建长文本的精简版本。文本摘要的好处:减少阅读时间帮助更好的
摘要由CSDN通过智能技术生成

介绍

今天的互联网上有数以百万计的网页和网站。遍历大量内容对于提取有关某个主题的信息变得非常困难。Google会过滤搜索结果并为您提供排名前十的搜索结果,但是通常无法找到所需的正确内容。文章中有大量冗余和重叠的数据,这导致大量时间的浪费。解决此问题的更好方法是汇总大量可用的文本数据,以较短的版本显示。

本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。

文本摘要

文本摘要是一种NLP(自然语言处理)技术,可从大量数据中提取文本,目标是创建长文本的精简版本。

文本摘要的好处:

  • 减少阅读时间
  • 帮助更好的研究工作
  • 增加可以容纳的信息量

文本摘要有两种方法:基于NLP的技术和深度学习技术。

在本文中,我们将介绍一种基于NLP的技术,该技术使用Python NLTK库。

步骤

  • 获取文本资料
  • 文字预处理
  • 将段落转换为句子
  • 标记句子
  • 查找发生的加权频率
  • 用句子中的加权频率替换单词
  • 按权重降序对句子排序
  • 获取摘要

在这里插入图片描述

获取数据

如果您希望总结维基百科文章,先获取文章URL。我们将利用爬虫获取数据。先在Python中安装beautifulsoup库,该库用于在各种HTML标签内获取网页上的数据。

使用以下命令:

pip install beautifulsoup4

为了解析HTML标签,我们需要一个解析器,即lxml包:

pip install lxml

我们尝试总结Wikipedia Reinforcement Learning页面的文章,先获取数据:

import bs4 as bs
import urllib.request
import re
scraped_data = urllib.request.urlopen('https://en.wikipedia.org/wiki/Reinforcement_learning')
article = scraped_data.read()
parsed_article = bs.BeautifulSoup(article,'lxml')
paragraphs = parsed_article.find_all('p')
article_text = ""
for p in paragraphs:
    article_text += p.text

在Wikipedia文章中,文本显示在段落标记中。因此,我们使用find_all函数来获取段落标记内的所有文本。

接下来我们需要对提取的文本进行数据预处理。

文本预处理

第一个任务是删除文章中的所有引用,这些参考文献均括在方括号中。下面的代码将删除方括号并将其替换为空格。

# Removing Square Brackets and Extra Spaces
article_text 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值