规范进行一个爬虫项目【经验分享：参考教学书籍，爬取books.toscrape.com上的书籍信息】

最新推荐文章于 2023-12-23 12:35:18 发布

RonnyChan

最新推荐文章于 2023-12-23 12:35:18 发布

阅读量2.7k

点赞数 2

分类专栏： python 爬虫文章标签： python 爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GBA_Eagle/article/details/81612318

版权

如何规范开始一个python爬虫？传送门：https://blog.csdn.net/GBA_Eagle/article/details/81611348

教学书籍：《精通Scrapy网络爬虫》

项目需求：

爬取http://books.toscrape.com网站中的书籍信息。

（1）信息包括：

书名、价格、评价等级、产品编码、库存量、评价数量。

（2）将爬取结果保存到csv文件中。

具体页面分析：

首先在命令提示符中使用scrapy shell <url> 命令进行初步测试：

C:\Users\yi>scrapy shell http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html
2018-08-12 23:30:41 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: scrapybot)
... ...
[s] view(response) View response in a browser
>>>

运行这条命令后，scrapy shell会使用url参数构造一个Request对象，并提交给Scrapy引擎，页面下载完成后，程序进入一个python shell（在计算机科学中，Shell俗称壳（用来区别于核），是指“提供使用者使用界面”的软件（命令解析器））中，在此环境中已经创建好了一些变量（对象和函数）。

接下来，在scrapy shell中调用view函数，在浏览器中显示response所包含的页面：

>>> view(response)

可能很多时候view出的页面和浏览器打开的是一样的，但是前者是Scrapy爬虫下载的页面，后者是由浏览器下载的页面，有时它们是不同的。在进行页面分析时，使用view函数更加可靠。

如图所示，我们成功打开了Scrapy下载的页面

接下来我们可以使用谷歌浏览器插件SelectorGadget以及Xpath Helper来帮助我们快捷得到所需内容的Xpath或CSS路径（这只是一种方法，经测试只能在浏览器下载显示的页面使用。若追求可靠性，也可在view中使用传统的“检查”定位元素，总结规律，再在命令提示符中检验；使用插件更方便~）

（谷歌浏览器插件的安装方法：进入Chrome网上应用店https://chrome.google.com/webstore/category/extensions，搜索添加至Chrome即可）

打开谷歌浏览器，输入地址http://books.toscrape.com/cat

最低0.47元/天解锁文章

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
规范进行一个爬虫项目【经验分享：参考教学书籍，爬取books.toscrape.com上的书籍信息】

如何规范开始一个python爬虫？传送门：https://blog.csdn.net/GBA_Eagle/article/details/81611348教学书籍：《精通Scrapy网络爬虫》项目需求：爬取http://books.toscrape.com网站中的书籍信息。（1）信息包括：书名、价格、评价等级、产品编码、库存量、评价数量。（2）将爬取结果保存到csv文件中。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。