python爬取文章带格式_网络爬虫爬取新浪某篇文章的标题、日期时间、来源、作者及文章内容(Python)...

本文介绍了如何使用Python的BeautifulSoup库和两种方法(urllib.request与requests)来爬取新浪新闻网站上的文章信息,包括标题、日期、来源、作者和文章内容。
摘要由CSDN通过智能技术生成

网络爬虫爬取新浪某篇文章的标题、日期时间、来源、作者及文章内容(Python)

发布时间:2018-04-22 12:47,

浏览次数:554

, 标签:

Python

1.准备工作

Python安装有BeautifulSoup4

Python安装有requests(可有可无,我会贴出两种方式)

2.当然进入主题了

先获得新浪的一篇文章的Url,我所用的Url为:

http://news.sina.com.cn/c/2018-04-22/doc-ifznefkh5284628.shtml

下面就是代码了:

(1)第一种方式:采用Python自带库urllib.request的方式获得链接

# 爬取文章标题,发表时间,文章来源,作者,文章内容 from urllib.request import urlopen from bs4 import

BeautifulSoup url = urlopen(

"http://news.sina.com.cn/c/2018-04-22/doc-ifznefkh5284628.shtml") #打开字符串的url

soup = BeautifulSoup(url,"html.parser") #使用指定解析器解析获得链接内容 head = soup.select(

".main-title")[0].text #获取文章标题 date = soup.select(".date")[0].text #获取日期 source

= soup.select(".source")[0].text #

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值