Newspaper3k —— 一个神奇的 Python 库

最新推荐文章于 2024-11-19 15:49:39 发布

程序媛了了

最新推荐文章于 2024-11-19 15:49:39 发布

阅读量1.8k

点赞数 10

文章标签： python 开发语言

本文链接：https://blog.csdn.net/Trb401012/article/details/135880717

版权

本文介绍了Python库Newspaper3k，它可抓取文章、解析文本并自动提取关键信息，支持多语言。文中说明了其安装方法、基本用法，包括使用新闻源、处理单篇文章等，还鼓励实践操作。Newspaper3k是处理大规模新闻数据的理想工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

继续我们的有趣的 Python 库之旅 ——

一个小小的库，或许能避免重复造轮子

一个不显眼的功能，也许能在关键时刻拯救我们

一个出乎意料的方法，或许能激发更多创意灵感

一个独特的技能，也许能成为我们的守护神……

俗话说爬虫好写，内容难提，特别是要提取页面上的主要信息时，常常会被不同的页面结构和规则弄得很狼狈。

如果你还需要获得作者、发布日期、关键字等信息，那就更难了。

不过，不用慌张，已经有个 Python 库为你做好准备了，它就是 —— Newspaper3k！

什么是 Newspaper3k？

Newspaper3k 不仅可以帮助你抓取文章，解析出干净的文本，而且还能自动提取关键信息，如作者、发布日期、关键字等。

更惊艳的是它还可以支持多种语言，从英文到中文，再到阿拉伯语等等，这一切都变得易如反掌。

Newspaper3k 启发自 requests 库的简单性，并借助 lxml 的速度优势，成为了处理新闻抓取任务的优选库。

虽然它支持 Python 2，但是强烈推荐您在 Python 3 环境下使用，以享受更稳定和更强大的功能。

Newspaper3k 是在 Python 环境中进行新闻文章抓取和内容解析的测试库。由 Lucas Ou-Yang 创建，并在 Github 上得到了社区的积极维护和更新。

项目地址：https://github.com/codelucas/newspaper

安装

通过 pip 可以轻松安装 Newspaper3k：

pip3installnewspaper3k

注意：请确保使用 pip3 命令安装 newspaper3k，而不是 newspaper。

基本用法

使用新闻源

使用 Newspaper3k 搭建一个新闻源，我们可以抽取它的所有文章和分类链接：

importnewspaper cnn_paper=newspaper.build('http://cnn.com') forarticleincnn_paper.articles: print(article.url) forcategoryincnn_paper.category_urls(): print(category)

处理单篇文章

处理新闻文章主要涉及几个关键步骤：下载、解析和自然语言处理。以下是针对单个文章操作示例：

fromnewspaperimportArticle url='http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/' article=Article(url) #下载文章 article.download() #解析文章 article.parse() #获取作者 print(article.authors) #获取发布日期 print(article.publish_date) #获取顶部图片 print(article.top_image) #文章摘要 article.nlp() print(article.summary)

注意：使用 nlp，需要下载 NLTK 数据，可能会比较慢

详细信息可参考：https://www.nltk.org/data.html

多语言

Newspaper3k 支持多种语言，包括但不限于中文、英文和阿拉伯语。它可以无缝提取和检测语言，如果没有指定语言，Newspaper3k 将尝试自动检测：

fromnewspaperimportArticle url="https://news.sina.com.cn/c/2024-01-26/doc-inaewiyx7293475.shtml" a=Article(url,language='zh')#使用中文 a.download() a.parse() print(a.text[:30]) print(a.title)

应该能输出：

1月26日，2024年春运正式启动。统筹冬季寒潮大风和海冰等我国三大海域举行海空立体巡航及演练全力保障海上安全