一个抓取豆瓣图书的开源爬虫的详细步骤

最新推荐文章于 2024-07-21 22:25:59 发布

weixin_34081595

最新推荐文章于 2024-07-21 22:25:59 发布

阅读量754

点赞数

文章标签：爬虫 python 开发工具

原文链接：https://yq.aliyun.com/articles/539091

版权

简介

基于numpy和bs4的豆瓣图书爬虫，可以分类爬取豆瓣读书300多万本图书信息，包括标题、作者、定价、页数、出版信息等

github地址：https://github.com/lanbing510/DouBanSpider
项目作者：lanbing510

1 可以爬下豆瓣读书标签下的所有图书

2 按评分排名依次存储

3 存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet

4 采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封

步骤

1、安装pyenv后激活环境，并clone代码到本地环境，可参看Python中文社区知乎专栏文章：基于pyenv和virtualenv搭建python多版本虚拟环境

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

2、查看代码文档，vim打开doubanSpider.py，可以看出需要安装的模块有numpy、bs4等，用pip命令依次安装：pip install numpy bs4，标红色部分为处理编码问题。 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

3、向下我们可以看到为了针对反爬虫，需要伪装浏览器头部，以及设置抓取频率，主要抓取内容为图书标题、简介等 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

4、部署好环境，安装必需的模块后即可用python命令直接执行文件

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

python doubanSpider.py

5、查看抓取的内容

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

原文发布时间为：2016-10-18

本文来自云栖社区合作伙伴“Python中文社区”，了解相关信息可以关注“Python中文社区”微信公众号

weixin_34081595

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。