基于基础库的简单实战
爬取目标是千古刘传在豆瓣上的分享书单,网址为https://www.douban.com/doulist/44773558/
明确爬取目标:
- 书名
- 作者
- 出版社
- 出版年
- 豆瓣评分
- 刘传评语
查看网页构造:
代码:
from urllib import request
url = 'https://www.douban.com/doulist/44773558/'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
'Host':'www.douban.com'
}
req = request.Request(url=url,headers=headers)
response = request.urlopen(req)
# 在这里我遇到了UnicodeEncodeError,在Windows的ipython中没有出现,在Linux的ipython中出现,在普通模式下没有问题。
content = response.read().decode('utf-8')
# 尝试提取信息
# 尽量使用非贪婪模式
import re
pattern = re.compile('<div.*?doulist-item.*?"title">.*?"_blank">(.*?)</a>.*?"rating_nums">(.*?)</span>.*?"abstract">(.*?)</div>.*?"comment">(.*?)</blockquote>.*?</div>',re.S)
results = re.findall(pattern,content)
# 数据整理
for result in results:
title,rating_nums,abstract,comment=result
author,publisher,year= abstract.split('<br />')
author = re.sub('\s',auhtor)
publisher = re.sub('\s',publisher)
print(title,rating_nums,author,publisher,year,comment)
然后修改url为'https://www.douban.com/doulist/44773558/?',就可以把第二页的内容。
以上就是学习了urllib和正则表达式能做的简单操作。
一些心得
在解析网页内容时避免使用贪婪模式,不然可能会滤过一些符合条件的匹配。
写正则表达式是一件非常考验经验的活,需要多练习。
urllib库果然不太好用,下次用request库。