Scrapy爬虫的尝试

最新推荐文章于 2023-05-13 00:28:32 发布

Win_Man

最新推荐文章于 2023-05-13 00:28:32 发布

阅读量470

点赞数

分类专栏： Python 文章标签：爬虫框架

本文链接：https://blog.csdn.net/Win_Man/article/details/49851041

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

今天尝试了一下使用Scrapy框架来写Python的爬虫。是根据Scrapy的官方文档中的简单的样例修改的。尝试了一下分析http://zj.qq.com网页，找出网站中的所有的图片。

首先定义了一个Item类

class ImgItem(scrapy.Item):
	src = scrapy.Field()

之后是Spider的类

import scrapy
from tutorial.items import DmozItem
from tutorial.items import ImgItem
import urllib
class DmozSpider(scrapy.Spider):
	name = "dmoz"
	allowed_domains = ["qq.com"]
	start_urls = [ "http://zj.qq.com/"]
	def parse(self,response):
		with open("haha.txt",'w') as f:
			f.write(response.body)
		sels = response.xpath('//img')
		x = 0
		for sel in sels:
			item = ImgItem()
			with open("xpath.txt",'a') as xf:
				xf.write(sel.xpath('@src').extract()[0] + '\n')
			item['src'] = sel.xpath('@src').extract()[0]
			yield item

将img便签中的src属性的值取出来就是图片的下载路径，我将一张页面中的<img>便签中的src属性保存在了xpath.txt文件中方便查看，也保存了一份item的json类型的数据。

在获取<img>标签的src属性的过程中出现了一些问题，一开始保存的结果是没有。于是使用scrapy的shell调试了一下，发现sel.xpath('/@src').extract()类型是list类型的，而写入文件的时候，需要的是string或二进制的类型，于是再去了一下列表的第一个元素就可以了。但是其实不是很明白为什么，官方手册上的并不用去列表的第一个元素就可以的。

最后得到items.json和xpath.txt两个文件，文件中保存的是所有图片的下载地址。

本来想把图片的下载顺便实现的，但是发现Scrapy中有ImagesPipeline图片管道好像是可以用来保存图片的，等有时间研究一下，实现一下。

Win_Man

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬虫的尝试

今天尝试了一下使用Scrapy框架来写Python的爬虫。是根据Scrapy的官方文档中的简单的样例修改的。尝试了一下分析http://zj.qq.com网页，找出网站中的所有的图片。首先定义了一个Item类class ImgItem(scrapy.Item): src = scrapy.Field()之后是Spider的类import scrapyfrom tutorial.it
复制链接

扫一扫

专栏目录