网络爬虫（三）：简单使用scrapy

最新推荐文章于 2024-09-07 18:05:33 发布

封梦

最新推荐文章于 2024-09-07 18:05:33 发布

阅读量371

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_42785117/article/details/82491404

版权

python 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

一.首先简单了解scrapy的架构
官方给出的解释：
这里写图片描述
Spiders: Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

Item Pipeline: Item pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。。

下载器中间件: 下载区中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。。

Spider中间件: Spider是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。。

使用Scrapy爬取的过程如下：

1.引擎打开一个网站，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
2.引擎从Spider中获取到第一个要爬取的URL并在调度器)以Request调度。
3.引擎向调度器请求下一个要爬取的URL。
4.调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器。
5.一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
6.引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
7.Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
8.引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
9.(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

二. 创建scrapy项目
首先我们需要创建一个Scrapy项目，打开命令行，进入到要储存代码的位置的根目录下，执行这条指令
scrapy startproject xxxxxx
这里需要输入你给该项目所取的名称。

执行了该指令之后会自动创建一个文件夹，名称为你对这个项目所取的名称。
其中包括

各文件作用：
scrapy.cfg: 项目的配置文件。
items.py: 项目中的item文件，定义了储存数据的字段名。
pipelines.py: 项目中的pipelines文件。
settings.py: 项目的设置文件。
spiders: 放置spider代码的目录。（主要在这里做文章）

三、实现爬爬爬！
选择所想爬取的网站，从命令行进去到该项目中运行

scrapy genspider quotes quotes.toscrape.com

注：在这里我以quotes.toscrape.com为例，quotes是name，name一般由网站名确定。

运行完成后会在spider文件夹中自动生成一个quotes.py文件
其代码为

import scrapy

class QuotesSpider (scrapy.Spider)
	name = 'quotes'
	allowed_domains = ['quotes.toscrape.com'
	start_urls = ['http://quotes.toscrape.com/']
	def parse(self,response):
		pass

对这个代码进行改动就可以进行简单的爬取，在这里以quotes.toscrape.com网站为例
所写代码为：

import scrapy
class QuotesSpider(scrapy.Spider):
	name = 'quotes'
	allowed_domains = ['quotes.toscrape.com']

	def start_requests(self):#名称不要变
		for page  in range(20):
			url = 'http://quotes.toscrape.com/page/{}/'.format(page)
			yield scrapy.Request(url=url,callback=self.parse)
	def parse(self, response):#名称不要变
		page= response.url.split('/')[-2]
		#可以得到目前网址的页码
		file_name = 'quotes-{}.txt'.format(page)
		with open(file_name,'wb') as f:
			quotes = response.css('.quote')
			for index,quote in enumerate(quotes):
			#进行对应的排序 0 quote[0] quote[1] 
				text = quote.css('span.text::text').extract_first()
				#将内容以文本形式提取出来
				author = quote.css('small.author::text').extract_first()
				tags = quote.css('.tags .tag::text').extract()
				f.write("NO.{}".format(index+1).encode())
				#输出NO.1 2 3 4....
				f.write('\r\n'.encode())
				#换行
				f.write(text.encode())
				f.write("\r\n".encode())
				f.write("By{}".format(author).encode())
				f.write("\r\n".encode())
				tags_str = ''
				for tag in tags:
					tags_str += tag + ","
				Tags = tag[0:-2]
				f.write(("Tags:"+tags).encode())
				#这样在结尾就不会有','
				f.write("\r\n".encode())
				f.write(("-"*20).encode())
				f.write("\r\n".encode())

注：def start_requests(self)，def parse(self, response)的名称和括号内的不要变，一但改变，无法从网站上爬取数据

text = quote.css('span.text::text').extract_first()

span.text是定位到了具有span class ='text’属性的数据
.extract_first()=.extract()[0]可以提取出第一个节点

接下来就是最激动人心的时刻 /手动滑稽
在命令行进入到根目录下，运行这行代码：

scrapy crawl quotes

如果没有错误，静等片刻，打开到文件夹中，会生成.txt文件：
这里写图片描述
内容如下：

这样基本的一次使用scrapy算是大功告成。

封梦

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录