基于urllib和re模块的爬虫简单实战

基于基础库的简单实战

爬取目标是千古刘传在豆瓣上的分享书单,网址为https://www.douban.com/doulist/44773558/

明确爬取目标:

  • 书名
  • 作者
  • 出版社
  • 出版年
  • 豆瓣评分
  • 刘传评语

查看网页构造:

img_269ba9ead0a1f5d490a657b49429f332.png

代码:

from urllib import request
url = 'https://www.douban.com/doulist/44773558/'

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
    'Host':'www.douban.com'
}

req = request.Request(url=url,headers=headers)
response = request.urlopen(req)
# 在这里我遇到了UnicodeEncodeError,在Windows的ipython中没有出现,在Linux的ipython中出现,在普通模式下没有问题。
content = response.read().decode('utf-8')

# 尝试提取信息
# 尽量使用非贪婪模式
import re 
pattern = re.compile('<div.*?doulist-item.*?"title">.*?"_blank">(.*?)</a>.*?"rating_nums">(.*?)</span>.*?"abstract">(.*?)</div>.*?"comment">(.*?)</blockquote>.*?</div>',re.S)

results = re.findall(pattern,content)

# 数据整理
for result in results:
    title,rating_nums,abstract,comment=result
    author,publisher,year= abstract.split('<br />')
    author = re.sub('\s',auhtor)
    publisher = re.sub('\s',publisher)
    print(title,rating_nums,author,publisher,year,comment)

然后修改url为'https://www.douban.com/doulist/44773558/?',就可以把第二页的内容。
以上就是学习了urllib和正则表达式能做的简单操作。

一些心得

在解析网页内容时避免使用贪婪模式,不然可能会滤过一些符合条件的匹配。
写正则表达式是一件非常考验经验的活,需要多练习。
urllib库果然不太好用,下次用request库。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值