Scrapy爬虫的尝试

今天尝试了一下使用Scrapy框架来写Python的爬虫。是根据Scrapy的官方文档中的简单的样例修改的。尝试了一下分析http://zj.qq.com网页,找出网站中的所有的图片。

首先定义了一个Item类

class ImgItem(scrapy.Item):
	src = scrapy.Field()
之后是Spider的类

import scrapy
from tutorial.items import DmozItem
from tutorial.items import ImgItem
import urllib
class DmozSpider(scrapy.Spider):
	name = "dmoz"
	allowed_domains = ["qq.com"]
	start_urls = [ "http://zj.qq.com/"]
	def parse(self,response):
		with open("haha.txt",'w') as f:
			f.write(response.body)
		sels = response.xpath('//img')
		x = 0
		for sel in sels:
			item = ImgItem()
			with open("xpath.txt",'a') as xf:
				xf.write(sel.xpath('@src').extract()[0] + '\n')
			item['src'] = sel.xpath('@src').extract()[0]
			yield item
将img便签中的src属性的值取出来就是图片的下载路径,我将一张页面中的<img>便签中的src属性保存在了xpath.txt文件中方便查看,也保存了一份item的json类型的数据。

在获取<img>标签的src属性的过程中出现了一些问题,一开始保存的结果是没有。于是使用scrapy的shell调试了一下,发现sel.xpath('/@src').extract()类型是list类型的,而写入文件的时候,需要的是string或二进制的类型,于是再去了一下列表的第一个元素就可以了。但是其实不是很明白为什么,官方手册上的并不用去列表的第一个元素就可以的。

最后得到items.json和xpath.txt两个文件,文件中保存的是所有图片的下载地址。

本来想把图片的下载顺便实现的,但是发现Scrapy中有ImagesPipeline图片管道好像是可以用来保存图片的,等有时间研究一下,实现一下。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值