Python爬虫实战——豆瓣新书速递

最新推荐文章于 2021-12-07 09:14:10 发布

kelvinLLL

最新推荐文章于 2021-12-07 09:14:10 发布

阅读量2k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/kelvinLLL/article/details/56669531

版权

本文介绍了Python爬虫如何获取豆瓣新书信息，包括使用普通请求、伪装用户代理和代理IP的方式避免限制，以及通过正则表达式和BeautifulSoup库解析网页内容。最后展示了获取到的书籍数据。

摘要由CSDN通过智能技术生成

主要以豆瓣图书首页的新书速递为例，练习爬虫过程中的请求网页的方式，还有分别用三种方式来解析爬到的网页文档
1.请求网页 
 
   可以用urllib2,open()，也可以用request()，这里对这两个库的区别不做细讲，主要讲讲爬虫过程中的普通请求方式和伪装浏览器请求。 
 
普通请求：

# 普通方式读取
douban_book_html = urllib2.urlopen("https://book.douban.com/").read()
print douban_book_html但是有些网站会有些抵御爬虫的策略，比如说根据有没有请求头来判断是不是爬虫 
   
   
   我们可以通过开发者工具查看请求头：