主要以豆瓣图书首页的新书速递为例,练习爬虫过程中的请求网页的方式,还有分别用三种方式来解析爬到的网页文档1.请求网页
可以用urllib2,open(),也可以用request(),这里对这两个库的区别不做细讲,主要讲讲爬虫过程中的普通请求方式和伪装浏览器请求。
普通请求:
# 普通方式读取
douban_book_html = urllib2.urlopen("https://book.douban.com/").read()
print douban_book_html
但是有些网站会有些抵御爬虫的策略,比如说根据有没有请求头来判断是不是爬虫
我们可以通过开发者工具查看请求头: