简单的爬虫
简单的爬虫很好写,直接使用urllib即可编写。
代码实战
#简单爬虫的编写
import urllib.request
data = urllib.request.urlopen("http://www.baidu.com").read()
print(data)
爬取豆瓣网站的出版社信息,url是https://read.douban.com/provider/all。首先我们打开这个网址,查看其网页源代码如下图:
利用网页搜索框CTRL + F,搜索“安徽文艺出版社”如下图:
发现所有的出版社信息都被div包裹着,所以正则表达式可以写成’<‘div class=“name”>(.*?)</div’>’。写完正则表达式后,接下来的步骤就简单得多了。
代码实战
import requests
import re
pat = '<div class="name">(.*?)</div>'
url = "https://read.douban.com/provider/all"
headers = {
'user-agent': 'Mozilla/5.0'
}
string = requests.get(url, headers=headers).text
rst = re.compile(pat).findall(string)
print(rst)