采用scrapy框架爬取大型网站的个人记录

1、爬取过程中使用嵌套爬取

  一般来说,一个parse方法是不够用的。我目前而言是不会用start_urls默认发送请求的列表,感觉有点呆。因为当你请求的列表是整个网站的页面数据的时候,需要逐个遍历,就需要用到start_requests方法,我会在里面使用for循环配合yield Request(…)发送第一个网页请求。
  注意,yield Request(…)中的callback指定回调函数,是非常重要的,默认是parse方法。如果有多个解析网页的parse1、parse2方法,也就是嵌套爬取,一定要指定好callback函数。最后一个parseN方法一般就是yield item了,即将该item输送到管道文件中去。
  而我碰到的bug是一个parse方法中出现两个甚至更多yield关键字的时候,第二个yield Request(…)不执行了。这个情况常见于,要爬取多个分页的内容,第一个yield Request(…)处理前一页,执行完该request的回调函数返回后回到当前位置,继续执行下面的语句:判断是否为最后一页,如果不是最后一页,则对上一个路径进行正则化处理,进行第二个yield Request(…)的网页请求。注意,yield产生一个生成器函数,是迭代的。
  解决第二个yield Request(…)不执行的bug原因是,这条语句附近有错误,你可以在终端找错误的提示。但是如果没有的话,说明你两个request请求的网页路径很可能是一样的,我就遇到了这样的错误!所以,该请求就不执行了。
直接上图了

2、爬取过程输出的中文结果是乱码

  解决方法:不要用utf-8或者gbk,改为utf-8-sig
  在管道文件中,你应该这样写:
直接上图
  注意,在setting中,对应的管道在ITEM_PIPELINES = {}中不设置管道的数值的话,数据是不会被保存到文件中的。

3、print函数在scrapy框架中无效,那么该如何测试呢?

  我是在终端用scrapy shell进行代码的测试的。举个例子,我要测试某一个网页用xpath解析获得的标签数据的正确与否。我输入如下图所示的一行代码,启动scrapy的调试:
调试
  接着,输入opentime = response.xpath('//div[@class="detailModuleRef"]/div/div[@class="moduleContent"]/text()').get(),再输入变量并回车得到结果:
代码
  最后,输入exit()退出调试。此外,再记录一下:cd空格+文件夹名称进入该文件夹目录,cd…是返回上一级。
  总之,这是一个很棒的框架,加油!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TerryBlog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值