python爬虫的newspaper3k库用法

最新推荐文章于 2024-11-19 15:49:39 发布

EaSoNgo111

最新推荐文章于 2024-11-19 15:49:39 发布

阅读量1k

点赞数

文章标签： python 爬虫 scrapy

本文链接：https://blog.csdn.net/EaSoNgo111/article/details/129594567

版权

安装 newspaper3k 库使用以下命令在命令行中安装 newspaper3k 库：

plaintextCopy code

pip install newspaper3k

第一种用法：

使用 newspaper 模块爬取新闻

from newspaper import Article
url = 'http://www.asies.org.gt/el-indicador-de-deuda-publica-de-guatemala-llega-casi-al-25-por-ciento-del-pib/'
article = Article(url, language='es')  # 创建 Article 对象，指定新闻网站语言为西班牙语
article.download()  # 下载新闻网页
article.parse()  # 解析新闻网页
print(article.title)  # 输出新闻标题
print(article.authors)  # 输出新闻作者
print(article.publish_date)  # 输出新闻发布时间
print(article.text)  # 输出新闻正文
print(article.keywords)  # 输出新闻关键词

在上述代码中，我们首先创建了一个 Article 对象，指定要爬取的新闻网址和语言。然后，我们使用 download() 方法下载新闻网页，并使用 parse() 方法解析网页内容。接着，我们可以通过 title、authors、publish_date、text 和 keywords 等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。 3. 使用 newspaper 模块爬取新闻列表如果需要爬取某个新闻网站的新闻列表，可以使用 newspaper 模块的 build() 方法来创建一个 Source 对象，并使用 articles 属性获取新闻列表。以下是相应的代码示例：

第二种用法：

from newspaper import build
url = 'http://www.asies.org.gt/'
source = build(url, language='es')  # 创建 Source 对象，指定新闻网站语言为西班牙语
articles = source.articles  # 获取新闻列表
for article in articles:
    article.download()  # 下载新闻网页
    article.parse()  # 解析新闻网页
    print(article.title)  # 输出新闻标题
    print(article.authors)  # 输出新闻作者
    print(article.publish_date)  # 输出新闻发布时间
    print(article.text)  # 输出新闻正文
    print(article.keywords)  # 输出新闻关键词

在上述代码中，我们首先使用 build() 方法创建了一个 Source 对象，指定要爬取的新闻网址和语言。然后，我们使用 articles 属性获取新闻列表，并遍历每个新闻。对于每个新闻，我们使用 download() 方法下载新闻网页，并使用 parse() 方法解析网页内容。接着，我们可以通过 title、authors、publish_date、text 和 keywords 等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。