写个图片爬虫,scrapy,python第一次接触(停止更新)

本文记录了一位初学者使用Python Scrapy框架搭建图片爬虫的过程,包括安装Python 2.7和Scrapy,理解XPath选择器,遇到并解决image pipeline中的KeyError问题,以及如何通过自定义设置实现图片分类存储。同时,文章提到了避免反爬虫策略的初步应用。
摘要由CSDN通过智能技术生成

1、安装python,装2.7就好了,因为scrapy里面要求的一些支撑包没有3.3版本的。有windows的安装包,无压力

2、安装scrapy,看官网的安装指导,装一大堆,都快想吐了

3、照着入门教程做一个简单的,顺便看看scrapy 的架构图,了解XPath选择器

这些都说的挺略,时间有点长,记不得细节,也没有多少难度

4、我的第一个抓爬目标是mmonly,静态的而且没有js,最终目标是爬新浪微博的图而且不用api,所以接触了image pipeline,里面有个地方特别坑


image pipeline错误: exceptions.KeyError: 'image_urls'    更新时间:2013.08.09

要将分析到的图片链接放到item里面的image_urls里面,这个东东分明是个list,我用append来加入,运行会有错误提示

别人的代码是item['image_urls'] = hxs.select('//*..******').extract(),这样的确可以,而且有了这个赋值之后,在用append加入字符串(url)就可以正确下载了


image pipeline 下载路径    更新时间:2013.08.11

我想将爬下来的图片一组组的分开文件夹放置,但是官网教程的只是在setting.py里面规定路径

打算在自己实现的那个pipeline里面修改一下文件名,下载完成后分类到新建的文件夹里面(这个工作我用C++在windows下写

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值