Python爬虫实战——豆瓣新书速递

最新推荐文章于 2023-10-20 15:41:31 发布

kelvinLLL

最新推荐文章于 2023-10-20 15:41:31 发布

阅读量2k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/kelvinLLL/article/details/56669531

版权

主要以豆瓣图书首页的新书速递为例，练习爬虫过程中的请求网页的方式，还有分别用三种方式来解析爬到的网页文档
1.请求网页 
 
   可以用urllib2,open()，也可以用request()，这里对这两个库的区别不做细讲，主要讲讲爬虫过程中的普通请求方式和伪装浏览器请求。 
 
普通请求：

# 普通方式读取
douban_book_html = urllib2.urlopen("https://book.douban.com/").read()
print douban_book_html但是有些网站会有些抵御爬虫的策略，比如说根据有没有请求头来判断是不是爬虫 
   
   
   我们可以通过开发者工具查看请求头：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kelvinLLL

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
Python爬虫实战——豆瓣新书速递

主要以豆瓣图书首页的新书速递为例，练习爬虫过程中的请求网页的方式，还有分别用三种方式来解析爬到的网页文档1.请求网页可以用urllib2,open()，也可以用request()，这里对这两个库的区别不做细讲，主要讲讲爬虫过程中的普通请求方式和伪装浏览器请求。普通请求：# 普通方式读取douban_book_html = urllib2.urlopen("https://book
复制链接

扫一扫