newspaper爬取新闻网站

newspaper爬取新闻网站

安装newspaper

pip install newspaper3k

代码

from newspaper import Article

url = '你想要爬取的网站url'
news = Article(url, language='zh')

news.download()  # 先下载
news.parse()    # 再解析

text = news.text # 新闻正文
title = news.title # 新闻标题
html = news.html   # 未修改的原始HTML
authors = news.authors  # 新闻作者
top_image = news.top_image # 本文的“最佳图像”的URL
movies = news.movies  # 本文电影url
keywords = news.keywords # 新闻关键词
summary = news.summary   # 从文章主体txt中生成的摘要
images = news.images # 本文中的所有图像url
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值