采用scrapy框架爬取大型网站的个人记录

TerryBlog

已于 2022-03-25 10:19:35 修改

阅读量1.1k

点赞数

分类专栏： Debug # 爬虫文章标签：个人总结爬虫

于 2022-03-24 21:29:59 首次发布

本文链接：https://blog.csdn.net/qq_44853197/article/details/123721232

版权

Debug 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 1 订阅

订阅专栏

1、爬取过程中使用嵌套爬取

一般来说，一个parse方法是不够用的。我目前而言是不会用start_urls默认发送请求的列表，感觉有点呆。因为当你请求的列表是整个网站的页面数据的时候，需要逐个遍历，就需要用到start_requests方法，我会在里面使用for循环配合yield Request(…)发送第一个网页请求。
注意，yield Request(…)中的callback指定回调函数，是非常重要的，默认是parse方法。如果有多个解析网页的parse1、parse2方法，也就是嵌套爬取，一定要指定好callback函数。最后一个parseN方法一般就是yield item了，即将该item输送到管道文件中去。
而我碰到的bug是一个parse方法中出现两个甚至更多yield关键字的时候，第二个yield Request(…)不执行了。这个情况常见于，要爬取多个分页的内容，第一个yield Request(…)处理前一页，执行完该request的回调函数返回后回到当前位置，继续执行下面的语句：判断是否为最后一页，如果不是最后一页，则对上一个路径进行正则化处理，进行第二个yield Request(…)的网页请求。注意，yield产生一个生成器函数，是迭代的。
解决第二个yield Request(…)不执行的bug原因是，这条语句附近有错误，你可以在终端找错误的提示。但是如果没有的话，说明你两个request请求的网页路径很可能是一样的，我就遇到了这样的错误！所以，该请求就不执行了。
直接上图了

2、爬取过程输出的中文结果是乱码

解决方法：不要用utf-8或者gbk，改为utf-8-sig。
在管道文件中，你应该这样写：
直接上图
注意，在setting中，对应的管道在ITEM_PIPELINES = {}中不设置管道的数值的话，数据是不会被保存到文件中的。

3、print函数在scrapy框架中无效，那么该如何测试呢？

我是在终端用scrapy shell进行代码的测试的。举个例子，我要测试某一个网页用xpath解析获得的标签数据的正确与否。我输入如下图所示的一行代码，启动scrapy的调试：

接着，输入opentime = response.xpath('//div[@class="detailModuleRef"]/div/div[@class="moduleContent"]/text()').get()，再输入变量并回车得到结果：

最后，输入exit()退出调试。此外，再记录一下：cd空格+文件夹名称进入该文件夹目录，cd…是返回上一级。
总之，这是一个很棒的框架，加油！