学习爬虫之Scrapy框架学习（1）---Scrapy框架初学习及豆瓣top250电影信息获取的实战！

2401_84140569

于 2024-05-13 06:33:19 发布

阅读量541

点赞数 23

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84140569/article/details/138780919

版权

程序员专栏收录该内容

137 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

我们也可以通过命令创建爬虫

语法格式：scrapy genspider [-t template]

运行命令：scrapy genspider bd www.baidu.com

会在spiders文件下生成bd.py文件

}

1.首先：

cd 到项目下

2.第二步：

scrapy genspider [options]

scrapy genspider bd www.baidu.com

会创建在项目/spider下 ;其中bd 是爬虫文件名, www.baidu.com 是 url（域名）

**执行命令：

scrapy genspider bd www.baidu.com

之后再项目/spider下创建的文件为：**

-- coding: utf-8 --

import scrapy

class BdSpider(scrapy.Spider): #继承了scrapy.Spider类

name = ‘bd’ #名字是唯一的（不重复）因为我们在启动项目的时候，是根据这个名字来找爬虫文件的

allowed_domains = [‘www.baidu.com’] #允许的域名（限制）可以没有这个限制！

start_urls = [‘http://www.baidu.com/’] #首个请求（必须要有）不然开始都开始不了，怎么让整个框架运行下去呢！

def parse(self, response): #必须是parse函数不可以乱改名接收下载器下载的数据

print(“*******”) #用于更直观的观察框架能否正常运行！

print(“*******”)

print(response) #response对象

#获取数据两种方法：

print(response.body.decode()) #获取到的是字节码形式

print(response.text)

注意：最后引擎给spider模块的数据就给到了函数parse里的形参response：

在这里插入图片描述

（3）运行爬虫文件

一步即可：

scrapy crawl [options]

其中spider是爬虫文件名

**执行命令：

scrapy crawl bd**

但是！我们运行爬虫文件之后，发现用于测试的print函数没有显示，经过检查终端输出的数据可知Scrapy框架是默认遵循robots协议的，所以咱们肯定获取不到数据了！！！

在这里插入图片描述

如何解决这个问题呢？

打开设置文件settings.py，将其中的以下代码更改为False即可！

Obey robots.txt rules

ROBOTSTXT_OBEY = True

拓展：第二种运行scrapy的方法！

cd 到爬虫模块spiders文件夹下，运行命令：

scrapy runspider 爬虫py文件名

注意：爬虫py文件名要带.py后缀！

高级拓展：（注意：以上两种运行scrapy框架的方法都无法进行debug，非常不方便！万一出问题了，岂不是很难找！！！所以：推出第三种启动scrapy框架的方法-----django在创建项目的时候自动生成一个启动项目的py文件【manage.py或者main.py】，而scrapy框架没有，但是我们可以自己定义呀！！！！！）

1.在项目文件夹下创建名为main.py或者manage.py的py文件：

在这里插入图片描述

2.在此py文件下编写代码如下：

from scrapy.cmdline import execute

import sys

import os

保证终端执行 “scrapy”, “crawl”, “bd” 这个命令运行不出现路径问题！（可以不写！）

sys.path.append(os.path.dirname(os.path.abspath(file)))

execute([“scrapy”, “crawl”, “bd”])

3.现在，我们可以直接运行这个py文件，会发现会和前两种方法一样运行scrapy框架；而且，强大的是：我们还可以通过debug此py文件达到调试此scrapy框架的作用！！！

（2）实操（豆瓣电影top250首页电影信息的获取！）

1.创建项目：

scrapy startproject douban

2.创建爬虫文件：

scrapy genspider db www.summer.com

（注意：这个域名是可以随便写的【但是必须要写哦！】，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可！）

-- coding: utf-8 --

import scrapy

class DbSpider(scrapy.Spider):

name = ‘db’

allowed_domains = [‘movie.douban.com’]

start_urls = [‘https://movie.douban.com/top250’]

def parse(self, response):

print(“*********”)

print(response.text)

3.运行爬虫文件：

scrapy crawl db

但是，我们运行之后发现又没有获取到数据哎！

在这里插入图片描述

造成这样的原因是：回想爬虫的基础，我们如果直接这样向网页发送请求进行爬取，那服务端一眼就看到咱是scrapy了，它还会理咱嘛？所以我们要设置请求头！

4.设置请求头：

在配置文件settings.py中找到如下代码取消注释并加入爬取网页请求头的User-Agent即可！

在这里插入图片描述

5.获取到电影名字：

{

到现在，我们运行爬虫文件，Scrapy框架已经可以获取到网页的首页数据。那么，我们如何筛选出我们想要的电影的名字呢？

考虑到我们如果利用xpath匹配，可能要多次尝试才能正确匹配到，那就需要我们一次又一次的运行咱的项目，多麻烦啊！咱都这样想了，人家大牛也这样想啊，所以，在这里有个贼帅贼帅的牛皮的方法：

使用shell交互式平台：（注意1：它是遵循settings设置的；注意2：一定要到咱的项目文件夹下运行；）

首先：cd到我们项目的文件路径下。

然后：输入命令scrapy shell url (start_url) 即可！

这样：它其实就请求到了此url的数据（跟上面运行爬虫文件得到的数据一模一样）！！！

}

首先：打开我们的shell交互式平台。

再此项目中：输入命令scrapy shell https://movie.douban.com/top250

第二步：在shell交互式平台中匹配我们所需的电影数据。

输入：response.xpath(’//div[@class=“info”]/div/a/span[1]/text()’)

在这里插入图片描述（

会发现：这得到的是一个selector对象！

而我们得到的数据就是用的response对象自带的xpath匹配到的（生成了response之后就会自动生成selector对象）！

与我们正常用的xpath不同，它获取到的数据在selector对象里，如上图：

）

第三步：从selector对象中提取电影名字

使用selector对象的方法.extract()。这个方法可以提取到selector对象中data对应的数据。

response.xpath(’//div[@class=“info”]/div/a/span[1]/text()’).extract()

在这里插入图片描述

6.将获取到的电影的信息存储到text文本中

{

注意：如果想要存储数据，就要用到管道。

这就涉及到了items.py文件（定义结构化数据字段）和pipelines.py文件（管道文件）。

}

首先：操作items.py文件

因为我们只需要存储一个信息，所以定义一个字段名即可！

{

定义公共输出数据格式，Scrapy提供了Item类。Item对象是用于收集剪贴数据的简单容器。它们提供了一个类似词典的API，提供了一种方便的语法来声明它们的可用字段。 scray.Item对象是用于收集抓取数据的简单容器，使用方法和python的字典类似。编辑项目目录下items.py文件。

然后我们只需要在爬虫中导入我们定义的Item类，实例化后用它进行数据结构化。

}

-- coding: utf-8 --

Define here the models for your scraped items

See documentation in:

https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class DoubanItem(scrapy.Item):

define the fields for your item here like:

name = scrapy.Field()

#需要定义字段名就像数据库那样，有字段名，才能插入数据（即存储数据）

Field代表的是字符串类型！！！

films_name=scrapy.Field() #定义字段名

第二步：在爬虫文件中操作数据，使其与管道建立桥梁

{

到目前为止，我们通过scrapy写出的爬虫还看不出优越性在哪里，并且上面的爬虫还有个很严重的问题，就是对文件的操作。每次调用parse方法会打开文件关闭文件，这极大的浪费了资源。parse函数在解析出我们需要的信息之后，可以将这些信息打包成一个字典对象或scray.Item对象（一般都是item对象），然后返回。这个对象会被发送到item管道，该管道会通过顺序执行几个组件处理它。每个item管道组件是一个实现简单方法的Python类。他们收到一个item并对其执行操作，同时决定该item是否应该继续通过管道或者被丢弃并且不再处理。

item管道的典型用途是：

清理HTML数据

验证已删除的数据（检查项目是否包含某些字段）

检查重复项（并删除它们）

将已爬取的item进行数据持久化

}