python爬虫的newspaper3k库用法

  1. 安装 newspaper3k 库 使用以下命令在命令行中安装 newspaper3k 库:

plaintextCopy code

pip install newspaper3k

第一种用法:

使用 newspaper 模块爬取新闻

from newspaper import Article
url = 'http://www.asies.org.gt/el-indicador-de-deuda-publica-de-guatemala-llega-casi-al-25-por-ciento-del-pib/'
article = Article(url, language='es')  # 创建 Article 对象,指定新闻网站语言为西班牙语
article.download()  # 下载新闻网页
article.parse()  # 解析新闻网页
print(article.title)  # 输出新闻标题
print(article.authors)  # 输出新闻作者
print(article.publish_date)  # 输出新闻发布时间
print(article.text)  # 输出新闻正文
print(article.keywords)  # 输出新闻关键词

在上述代码中,我们首先创建了一个 Article 对象,指定要爬取的新闻网址和语言。然后,我们使用 download() 方法下载新闻网页,并使用 parse() 方法解析网页内容。接着,我们可以通过 titleauthorspublish_datetextkeywords 等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。 3. 使用 newspaper 模块爬取新闻列表 如果需要爬取某个新闻网站的新闻列表,可以使用 newspaper 模块的 build() 方法来创建一个 Source 对象,并使用 articles 属性获取新闻列表。以下是相应的代码示例:

第二种用法:

from newspaper import build
url = 'http://www.asies.org.gt/'
source = build(url, language='es')  # 创建 Source 对象,指定新闻网站语言为西班牙语
articles = source.articles  # 获取新闻列表
for article in articles:
    article.download()  # 下载新闻网页
    article.parse()  # 解析新闻网页
    print(article.title)  # 输出新闻标题
    print(article.authors)  # 输出新闻作者
    print(article.publish_date)  # 输出新闻发布时间
    print(article.text)  # 输出新闻正文
    print(article.keywords)  # 输出新闻关键词

在上述代码中,我们首先使用 build() 方法创建了一个 Source 对象,指定要爬取的新闻网址和语言。然后,我们使用 articles 属性获取新闻列表,并遍历每个新闻。对于每个新闻,我们使用 download() 方法下载新闻网页,并使用 parse() 方法解析网页内容。接着,我们可以通过 titleauthorspublish_datetextkeywords 等属性获取新闻的标题、作者、发布时间、正文和关键词等信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值