今天尝试了一下使用Scrapy框架来写Python的爬虫。是根据Scrapy的官方文档中的简单的样例修改的。尝试了一下分析http://zj.qq.com网页,找出网站中的所有的图片。
首先定义了一个Item类
class ImgItem(scrapy.Item):
src = scrapy.Field()
之后是Spider的类
import scrapy
from tutorial.items import DmozItem
from tutorial.items import ImgItem
import urllib
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["qq.com"]
start_urls = [ "http://zj.qq.com/"]
def parse(self,response):
with open("haha.txt",'w') as f:
f.write(response.body)
sels = response.xpath('//img')
x = 0
for sel in sels:
item = ImgItem()
with open("xpath.txt",'a') as xf:
xf.write(sel.xpath('@src').extract()[0] + '\n')
item['src'] = sel.xpath('@src').extract()[0]
yield item
将img便签中的src属性的值取出来就是图片的下载路径,我将一张页面中的<img>便签中的src属性保存在了xpath.txt文件中方便查看,也保存了一份item的json类型的数据。
在获取<img>标签的src属性的过程中出现了一些问题,一开始保存的结果是没有。于是使用scrapy的shell调试了一下,发现sel.xpath('/@src').extract()类型是list类型的,而写入文件的时候,需要的是string或二进制的类型,于是再去了一下列表的第一个元素就可以了。但是其实不是很明白为什么,官方手册上的并不用去列表的第一个元素就可以的。
最后得到items.json和xpath.txt两个文件,文件中保存的是所有图片的下载地址。
本来想把图片的下载顺便实现的,但是发现Scrapy中有ImagesPipeline图片管道好像是可以用来保存图片的,等有时间研究一下,实现一下。