scrapy快速入门
安装
- 升级pip python -m pip install --upgrade pip
- 安装wheel
- 安装lxml
- pip install scrapy
创建一个scrapy项目
# 环境**windows 10, py3.10 **
# 以下步骤我是在自己的电脑D:\scrapy-china\scrapycode目录下运行
# 在开始爬取之前,我们首先要创建一个scrapy项目,在命令行输入一下命令即可创建
scrapy startproject mingyan
# scrapy startproject 这里是固定的
# 注意scrapy和startproject和mingyan中间是有空格的!后面的:mingyan是我们创建的蜘蛛名字,名字根据自己的情况创建。
# 输入命令之后出现,下面的提示表示创建成功:
# you can start your first spider with:
# cd mingyan
# scrapy genspider example example.com
# 目录结构如下:
# mingyan
# │ scrapy.cfg
# │ items.py
# │ middlewares.py
# │ pipelines.py
# │ settings.py
# │ __init__.py
# │
# ├─spiders
# │ │ __init__.py
# 到这里已经创建成功,接下来编写第一个爬虫
编写第一个scrapy爬虫
# 上面我们已经成功创建了一个scrapy 项目,那我们该在哪里写我们的蜘蛛呢?here,在spiders目录下面,这一个scrapy 文档,我们就来创造一只scrapy蜘蛛
# 输入 `scrapy genspider miyan ”lab.scrapyd.cn/“`
# miyan = 爬虫名字 `”http://lab.scrapyd.cn/page/1“ 是爬取的范围`
# 打开 miyan/spiders目录里的miyan,默认添加了下列代码
import scrapy
class ItcastSpider(scrapy.Spider):
name = "miyan"
allowed_domains = ["lab.scrapyd.cn"]
start_urls = (
'http://www.lab.scrapyd.cn/',
)
def parse(self, response):
pass
其实也可以由我们自行创建itcast.py并编写上面的代码,只不过使用命令可以免去编写固定代码的麻烦
要建立一个Spider, 你必须用scrapy.Spider类创建一个子类,并确定了三个强制的属性 和 一个方法。
name = ""
:这个爬虫的识别名称,必须是唯一的,在不同的爬虫必须定义不同的名字。allow_domains = []
是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页,不存在的URL会被忽略。start_urls = ()
:爬取的URL元祖/列表。爬虫从这里开始抓取数据,所以,第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。parse(self, response)
:解析的方法,每个初始URL完成下载后将被调用,调用的时候传入从每一个URL传回的Response对象来作为唯一参数,主要作用如下:- 负责解析返回的网页数据(response.body),提取结构化数据(生成item)
- 生成需要下一页的URL请求。
运行蜘蛛
好了,里面注释应该都很清楚了,这里就不多解释,这个栗子,会放到github,打家下载了运行一下就知道原理了!那肿么运行这个蜘蛛呢?
scrapy crawl mingyan2
输入以上命令便可以运行蜘蛛了!
这里要重点提醒一下,我们一定要进入:mingyan2 这个目录,也就是我们创建的蜘蛛项目目录,以上命令才有效!还有 crawl 后面跟的是你类里面定义的蜘蛛名,也就是:name,并不是项目名、也不是类名,这些细节希注意!
scrapy start_url(初始链接)简写
def start_requests(self):
urls = [
'http://lab.scrapyd.cn/page/1/',
'http://lab.scrapyd.cn/page/2/',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
简化后,以上的链接可以写在:start_urls这个常量里面,是不是省了好多事,人生是不是又美满了一大截?
start_urls = [ # 另外一种写法,无需定义start_requests方法
'http://lab.scrapyd.cn/page/1/',
'http://lab.scrapyd.cn/page/2/',
]
但是!上帝给你开一扇门,就会给你关另一扇门,用简化的方法,我们必须定义一个方法为:def parse(self, response),方法名一定是:parse,这样的话用简写的方式就能愉快的工作了
完整代码如下:
"""
scrapy初始Url的两种写法,
一种是常量start_urls,并且需要定义一个方法parse()
另一种是直接定义一个方法:star_requests()
"""
import scrapy
class simpleUrl(scrapy.Spider):
name = "simpleUrl"
start_urls = [ #另外一种写法,无需定义start_requests方法
'http://lab.scrapyd.cn/page/1/',
'http://lab.scrapyd.cn/page/2/',
]
# 另外一种初始链接写法
# def start_requests(self):
# urls = [ #爬取的链接由此方法通过下面链接爬取页面
# 'http://lab.scrapyd.cn/page/1/',
# 'http://lab.scrapyd.cn/page/2/',
# ]
# for url in urls:
# yield scrapy.Request(url=url, callback=self.parse)
# 如果是简写初始url,此方法名必须为:parse
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'mingyan-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('保存文件: %s' % filename)
scrapy调试工具:scrapy shell使用方法
上面的栗子,我们只是囫囵吞枣的把页面下载下来,并不能展示scrapy的强大
是时候显示scrapy的肌肉了!scrapy真正的强大是表现在它提取数据的能力上,本文档我们也是走马观花的介绍一下scrapy提取数据的几种方式:CSS、XPATH、RE(正则),为马是走马观花呢?因为后面还有很大的篇幅细说他们,这里只是为了让你概括的认识scrapy,但要认识它,又不能不提及它的数据提取能力,所以在这里概括一下,后面它还会再回来!基于这样的现实,也对读者木有太高的要求,略懂即可!好了,接下来我们开始了:那开始之前,我们还需要磨把刀,神马刀呢?也就是:验证scrapy到底有木有提取到数据的工具,其实说白了就是scrapy调试工具,如果木有它你根本不知道你写的规则到底有木有提取到数据,所以这个工具是个:刚需!其实也很简单,就是在命令行输入下面一行代码而已:
scrapy shell http://lab.scrapyd.cn
scrapy shell 是必须的,后面的网址是你需要爬取的网页
输入:scrapy shell http://lab.scrapyd.cn
命令行会打印出一大串命令:
只需要注意最后一行是不是In [1]
比如我们想提取 http://lab.scrapyd.cn 的 title,我们可以在 In[1]: 后面输入:response.css(‘title’) ,然后回车, 立马就得到如下结果:
>>> response.css('title')
[<Selector xpath='descendant-or-self::title' data='<title>爬虫实验室 - S
CRAPY中文网提供</title>'>]
似不似很直观的验证了你提取的数据对不对?如果正确了,我们再把上面的代码放到我们蜘蛛里面,那这样就会正确的得到你想要的数据,而不会出现意外了,这就是scrapy调试工具的应用!
scrapy css选择器使用
上面我们已经祭出了 scrapy 强大的调试工具:scrapy shell,那接下来我们就简略的看看scrapy的第一种数据提取工具:css提取工具的用法。那我们要提取那个数据呢?就提取:http://lab.scrapyd.cn 这个页面的title里面的数据,我们来看一下他的html结构:
<!DOCTYPE HTML>
<html class="no-js">
<head>
……
<meta name="applicable-device" content="pc,mobile">
<title>爬虫实验室 - SCRAPY中文网提供</title>
……
我们要提取的就是上面:
<title>爬虫实验室 - SCRAPY中文网提供</title>
这个标签里面的数据,我们最终要得到的是:
“爬虫实验室 - SCRAPY中文网提供”
这么一段字符串,那我们就循序渐进的看看我们会怎么操作,会使用哪些函数。
首先我们需要在命令行输入:
scrapy shell http://lab.scrapyd.cn
然后我们继续在命令行输入如下命令:response.css(‘title’) ,这个格式是scrapy固定的格式照着写就行了;response.css(‘标签名’),标签名的话可以是html标签比如:title、body、div,也可以是你自定义的class标签,这里的话先看我们提取一下简单的,后面我们会讲解如何提取复杂的;
那当我们输入以上命令之后,你会发现已经很给力的提取了一些数据:
>>> response.css('title')
[<Selector xpath='descendant-or-self::title' data='<title>爬虫实验室 - S
CRAPY中文网提供</title>'>]
那你会发现,我们使用这个命令提取的一个Selector的列表,并不是我们想要的数据;那我们再使用scrapy给我们准备的一些函数来进一步提取,那我们改变一下上面的写法,输入:
>>> response.css('title').extract()
['<title>爬虫实验室 - SCRAPY中文网提供</title>']
我们只是在后面加入了:extract() 这么一个函数你就提取到了我们标签的一个列表,更近一步了,那如果我们不要列表,只要title这个标签,要怎么处理呢,看我们的输入:
>>> response.css('title').extract()[0]
'<title>爬虫实验室 - SCRAPY中文网提供</title>'
这里的话,我们只需要在后面添加:[0],那代表提取这个列表中的第一个元素,那就得到了我们的title字符串;这里的话scrapy也给我提供了另外一个函数,可以这样来写,一样的效果:
>>> response.css('title').extract_first()
'<title>爬虫实验室 - SCRAPY中文网提供</title>'
extract_first()就代表提取第一个元素,和我们的:[0],一样的效果,只是更简洁些,至此我们已经成功提取到了我们的title,但是你会发现,肿么多了一个title标签,这并不是你需要的,那要肿么办呢,我们可以继续改变一下以上的输入:
>>> response.css('title::text').extract_first()
'爬虫实验室 - SCRAPY中文网提供'
我们在title后面加上了
::text
,这代表提取标签里面的数据,至此,我们已经成功提取到了我们需要的数据:
'爬虫实验室 - SCRAPY中文网提供'
总结一下,其实就这么一段代码:
response.css('title::text').extract_first()
scrapy提取一组数据
上面我们已经学了几个
scrapy给我们提供的,提取网页数据的函数,上面的话我们只是在命令行使用,那经过我们的scrapyshell验证正确之后,我们怎么把它写进我们的蜘蛛文件?怎么让它提取数据?那接下来我们来看一下具体的操作。
我们继续蹂躏这个网站:http://lab.scrapyd.cn
我们先试着提取里面一条名言的信息,然后进一步提取多条;
那一条名言其实包含这么几个部分:名言、作者、标签,:
我们打开源代码,再来看一下对应的HTML标签:
<div class="quote post">
<span class="text">
各种时代,各国诗人,个抓个的痒。scrapy中文网(http://www.scrapyd.cn)整理
</span>
<span>
作者:<small class="author">木心</small>
<a href="http://lab.scrapyd.cn/archives/29.html">【详情】</a>
</span>
<p></p>
<div class="tags">
标签 :
<a href="http://lab.scrapyd.cn/tag/木心/">木心</a> ,
<a href="http://lab.scrapyd.cn/tag/艺术/">艺术</a>
</div>
</div>
那我们要爬取的标签就是:
名言,对应着 class=“text” 标签里面的内容;
作者,对应着 class=“authou” 里面的内容;
标签,对应着 class=“tags” 里面的内容;
因为我们提取的是第一段名言里面的数据,所以我们需要先找到第一段名言,然后保存在一个变量里面,再进一步提取里面的以上数据,那我们要怎么找到第一段名言呢,我们先来看一下HTML结构:
<div class="quote post">
……
</div>
<div class="quote post">
……
</div>
<div class="quote post">
……
</div>
……
我们可以看到,每一段名言都被一个
mingyan1 = response.css('div.quote')[0]
这样的话,我们就把第一段名言保存在:mingyan1 这么一个变量里面了。为什么会有一个:[0] 这表示提取第一段,如果没有这个限制,那我们提取的是本页所有名言。接下来我们就可以来提取里面的:名言内容、作者、标签了。首先提取名言内容,可以这样写:
>>> mingyan1.css('.text::text').extract_first()
'各种时代,各国诗人,个抓个的痒。scrapy中文网(http://www.scrapyd.cn)
整理'
好了,这样我们已经得到了第一段里面的名言内容,上面的表达式里面,我们使用了:.text 这是class选择器,如果是id选择器的话:#text 这些都是HTML的只是,不多说。那接下来我们提取作者:
>>> mingyan1.css('.author::text').extract_first()
'木心'
用的还是class选择器!接下来我们提取标签:
>>> mingyan1.css('.tags .tag::text').extract()
['木心', '艺术']
这里的话,大家可以发现我们用的并非是.extract_first() 而是 extract(),why?应为里面有多个标签,我们并非只是提取一个,而是要把所有标签都提取出来,因此就用了:.extract()
好了,所有内容都已经在scrapy shell 里面验证通过了,那接下来我们把它合并到我们蜘蛛里面,代码如下:
import scrapy
class itemSpider(scrapy.Spider):
name = 'itemSpider'
start_urls = ['http://lab.scrapyd.cn']
def parse(self, response):
mingyan = response.css('div.quote')[0]
text = mingyan.css('.text::text').extract_first() # 提取名言
author = mingyan.css('.author::text').extract_first() # 提取作者
tags = mingyan.css('.tags .tag::text').extract() # 提取标签
tags = ','.join(tags) # 数组转换为字符串
fileName = '%s-语录.txt' % autor # 爬取的内容存入文件,文件名为:作者-语录.txt
f = open(fileName, "a+") # 追加写入文件
f.write(text) # 写入名言内容
f.write('\n') # 换行
f.write('标签:'+tags) # 写入标签
f.close() # 关闭文件操作
scrapy 爬取多条数据(scrapy 列表爬取)
我们来看一下关键变化,原先我们取出一条数据,用的是如下表达式:
mingyan = response.css('div.quote')[0]
我们在后面添加了游标 [0] 表示只取出第一条,那我们要取出全部,那我们就不用加了,直接:
mingyan = response.css('div.quote')
那现在的变量就是一个数据集,里面有多条数据了,那接下来我们要做的就是循环取出数据集里面的每一条数据,那我们看一下怎么做:
mingyan = response.css('div.quote') # 提取首页所有名言,保存至变量mingyan
for v in mingyan: # 循环获取每一条名言里面的:名言内容、作者、标签
text = v.css('.text::text').extract_first() # 提取名言
autor = v.css('.author::text').extract_first() # 提取作者
tags = v.css('.tags .tag::text').extract() # 提取标签
tags = ','.join(tags) # 数组转换为字符串
# 接下来,进行保存
好了,可以看到,关键是:
for v in mingyan:
表示把 mingyan 这个数据集里面的数据,循环赋值给:v ,第一次循环的话 v 就代表第一条数据,那 text = v.css(‘.text::text’).extract_first() 就代表第一条数据的名言内容,以此类推,把所有数据都取了出来,最终进行保存,我们看一下完整的代码:
import scrapy
class itemSpider(scrapy.Spider):
name = 'listSpider'
start_urls = ['http://lab.scrapyd.cn']
def parse(self, response):
mingyan = response.css('div.quote') # 提取首页所有名言,保存至变量mingyan
for v in mingyan: # 循环获取每一条名言里面的:名言内容、作者、标签
text = v.css('.text::text').extract_first() # 提取名言
autor = v.css('.author::text').extract_first() # 提取作者
tags = v.css('.tags .tag::text').extract() # 提取标签
tags = ','.join(tags) # 数组转换为字符串
"""
接下来进行写文件操作,每个名人的名言储存在一个txt文档里面
"""
fileName = '%s-语录.txt' % autor # 定义文件名,如:木心-语录.txt
with open(fileName, "a+", encoding="utf-8") as f: # 不同人的名言保存在不同的txt文档,“a+”以追加的形式
f.write(text)
f.write('\n') # ‘\n’ 表示换行
f.write('标签:' + tags)
f.write('\n-------\n')
f.close()
# scrapy 爬取下一页,scrapy整站爬取,只需要加入下面的代码
next_page = response.css('li.next a::attr(href)').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)
首先:我们使用:response.css(‘li.next a::attr(href)’).extract_first()查看有木有存在下一页链接,如果存在的话,我们使用:urljoin(next_page)把相对路径,如:page/1转换为绝对路径,其实也就是加上网站域名,如:http://lab.scrapyd.cn/page/1;接下来就是爬取下一页或是内容页的秘诀所在,scrapy给我们提供了这么一个方法:scrapy.Request() 这个方法还有许多参数,后面我们慢慢说,这里我们只使用了两个参数,一个是:我们继续爬取的链接(next_page),这里是下一页链接,当然也可以是内容页;另一个是:我们要把链接提交给哪一个函数爬取,这里是parse函数,也就是本函数;当然,我们也可以在下面另写一个函数,比如:内容页,专门处理内容页的数据。经过这么一个函数,下一页链接又提交给了parse,那就可以不断的爬取了,直到不存在下一页;