网络爬虫爬取新浪某篇文章的标题、日期时间、来源、作者及文章内容(Python)
发布时间:2018-04-22 12:47,
浏览次数:554
, 标签:
Python
1.准备工作
Python安装有BeautifulSoup4
Python安装有requests(可有可无,我会贴出两种方式)
2.当然进入主题了
先获得新浪的一篇文章的Url,我所用的Url为:
http://news.sina.com.cn/c/2018-04-22/doc-ifznefkh5284628.shtml
下面就是代码了:
(1)第一种方式:采用Python自带库urllib.request的方式获得链接
# 爬取文章标题,发表时间,文章来源,作者,文章内容 from urllib.request import urlopen from bs4 import
BeautifulSoup url = urlopen(
"http://news.sina.com.cn/c/2018-04-22/doc-ifznefkh5284628.shtml") #打开字符串的url
soup = BeautifulSoup(url,"html.parser") #使用指定解析器解析获得链接内容 head = soup.select(
".main-title")[0].text #获取文章标题 date = soup.select(".date")[0].text #获取日期 source
= soup.select(".source")[0].text #