学习爬虫之Scrapy框架学习（1）---Scrapy框架初学习及豆瓣top250电影信息获取的实战

最新推荐文章于 2024-06-11 16:59:08 发布

北师大学生

最新推荐文章于 2024-06-11 16:59:08 发布

阅读量838

点赞数 28

分类专栏： 2024年程序员学习文章标签：学习爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83620841/article/details/137198412

版权

2024年程序员学习专栏收录该内容

295 篇文章 0 订阅

订阅专栏

该命令会在project_dir文件加下创建一个名为project_name的Scrapy新项目。如果project_dir没有指定，project_dir与project_name相同。

_执行命令：

scrapy startproject baidu

之后会在指定文件夹创建如下文件：_

在这里插入图片描述

（2）创建爬虫文件

{

创建一个bdSpider的类，它必须继承scrapy.Spider类，需要定义以下三个属性：

name: spider的名字，必须且唯一

start_urls: 初始的url列表

parse(self, response) 方法：每个初始url完成之后被调用。这个函数要完成一下两个功能：

解析响应，封装成item对象并返回这个对象

提取新的需要下载的url，创建新的request，并返回它

我们也可以通过命令创建爬虫

语法格式：scrapy genspider [-t template]

运行命令：scrapy genspider bd www.baidu.com

会在spiders文件下生成bd.py文件

}

1.首先：

cd 到项目下

2.第二步：

scrapy genspider [options]

scrapy genspider bd www.baidu.com

会创建在项目/spider下 ;其中bd 是爬虫文件名, www.baidu.com 是 url（域名）

**执行命令：

scrapy genspider bd www.baidu.com

之后再项目/spider下创建的文件为：**

-- coding: utf-8 --

import scrapy

class BdSpider(scrapy.Spider): #继承了scrapy.Spider类

name = ‘bd’ #名字是唯一的（不重复）因为我们在启动项目的时候，是根据这个名字来找爬虫文件的

allowed_domains = [‘www.baidu.com’] #允许的域名（限制）可以没有这个限制！

start_urls = [‘http://www.baidu.com/’] #首个请求（必须要有）不然开始都开始不了，怎么让整个框架运行下去呢！

def parse(self, response): #必须是parse函数不可以乱改名接收下载器下载的数据

print(“*******”) #用于更直观的观察框架能否正常运行！

print(“*******”)

print(“*******”)

print(“*******”)

print(“*******”)

print(“*******”)

print(response) #response对象

#获取数据两种方法：

print(response.body.decode()) #获取到的是字节码形式

print(response.text)

注意：最后引擎给spider模块的数据就给到了函数parse里的形参response：

在这里插入图片描述

（3）运行爬虫文件

一步即可：

scrapy crawl [options]

其中spider是爬虫文件名

**执行命令：

scrapy crawl bd**

但是！我们运行爬虫文件之后，发现用于测试的print函数没有显示，经过检查终端输出的数据可知Scrapy框架是默认遵循robots协议的，所以咱们肯定获取不到数据了！！！

在这里插入图片描述

如何解决这个问题呢？

打开设置文件settings.py，将其中的以下代码更改为False即可！

Obey robots.txt rules

ROBOTSTXT_OBEY = True

拓展：第二种运行scrapy的方法！

cd 到爬虫模块spiders文件夹下，运行命令：

scrapy runspider 爬虫py文件名

注意：爬虫py文件名要带.py后缀！

高级拓展：（注意：以上两种运行scrapy框架的方法都无法进行debug，非常不方便！万一出问题了，岂不是很难找！！！所以：推出第三种启动scrapy框架的方法-----django在创建项目的时候自动生成一个启动项目的py文件【manage.py或者main.py】，而scrapy框架没有，但是我们可以自己定义呀！！！！！）

1.在项目文件夹下创建名为main.py或者manage.py的py文件：

在这里插入图片描述

2.在此py文件下编写代码如下：

from scrapy.cmdline import execute

import sys

import os

保证终端执行 “scrapy”, “crawl”, “bd” 这个命令运行不出现路径问题！（可以不写！）

sys.path.append(os.path.dirname(os.path.abspath(file)))

execute([“scrapy”, “crawl”, “bd”])

3.现在，我们可以直接运行这个py文件，会发现会和前两种方法一样运行scrapy框架；而且，强大的是：我们还可以通过debug此py文件达到调试此scrapy框架的作用！！！

（2）实操（豆瓣电影top250首页电影信息的获取！）

1.创建项目：

scrapy startproject douban

2.创建爬虫文件：

scrapy genspider db www.summer.com

（注意：这个域名是可以随便写的【但是必须要写哦！】，等爬虫文件生成之后再进相应的爬虫文件改为我们所需的即可！）

-- coding: utf-8 --

import scrapy

class DbSpider(scrapy.Spider):

name = ‘db’

allowed_domains = [‘movie.douban.com’]

start_urls = [‘https://movie.douban.com/top250’]

def parse(self, response):

print(“*********”)

print(“*********”)

print(“*********”)

print(“*********”)

print(“*********”)

print(response.text)

3.运行爬虫文件：

scrapy crawl db

但是，我们运行之后发现又没有获取到数据哎！

在这里插入图片描述

造成这样的原因是：回想爬虫的基础，我们如果直接这样向网页发送请求进行爬取，那服务端一眼就看到咱是scrapy了，它还会理咱嘛？所以我们要设置请求头！

4.设置请求头：

在配置文件settings.py中找到如下代码取消注释并加入爬取网页请求头的User-Agent即可！

在这里插入图片描述

5.获取到电影名字：

{

到现在，我们运行爬虫文件，Scrapy框架已经可以获取到网页的首页数据。那么，我们如何筛选出我们想要的电影的名字呢？

考虑到我们如果利用xpath匹配，可能要多次尝试才能正确匹配到，那就需要我们一次又一次的运行咱的项目，多麻烦啊！咱都这样想了，人家大牛也这样想啊，所以，在这里有个贼帅贼帅的牛皮的方法：

使用shell交互式平台：（注意1：它是遵循settings设置的；注意2：一定要到咱的项目文件夹下运行；）

首先：cd到我们项目的文件路径下。

然后：输入命令scrapy shell url (start_url) 即可！

这样：它其实就请求到了此url的数据（跟上面运行爬虫文件得到的数据一模一样）！！！

}

首先：打开我们的shell交互式平台。

再此项目中：输入命令scrapy shell https://movie.douban.com/top250

第二步：在shell交互式平台中匹配我们所需的电影数据。

输入：response.xpath(’//div[@class=“info”]/div/a/span[1]/text()’)

在这里插入图片描述（

会发现：这得到的是一个selector对象！

而我们得到的数据就是用的response对象自带的xpath匹配到的（生成了response之后就会自动生成selector对象）！

与我们正常用的xpath不同，它获取到的数据在selector对象里，如上图：

）

第三步：从selector对象中提取电影名字

使用selector对象的方法.extract()。这个方法可以提取到selector对象中data对应的数据。

response.xpath(’//div[@class=“info”]/div/a/span[1]/text()’).extract()

在这里插入图片描述

6.将获取到的电影的信息存储到text文本中

{

注意：如果想要存储数据，就要用到管道。

这就涉及到了items.py文件（定义结构化数据字段）和pipelines.py文件（管道文件）。

}

首先：操作items.py文件

因为我们只需要存储一个信息，所以定义一个字段名即可！

{

定义公共输出数据格式，Scrapy提供了Item类。Item对象是用于收集剪贴数据的简单容器。它们提供了一个类似词典的API，提供了一种方便的语法来声明它们的可用字段。 scray.Item对象是用于收集抓取数据的简单容器，使用方法和python的字典类似。编辑项目目录下items.py文件。

然后我们只需要在爬虫中导入我们定义的Item类，实例化后用它进行数据结构化。

}

-- coding: utf-8 --

Define here the models for your scraped items

See documentation in:

https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

252731a671c1fb70aad5355a2c5eeff0.png)

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）
[外链图片转存中…(img-XTZVw1PH-1711863341796)]

北师大学生

关注

28
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
学习爬虫之Scrapy框架学习（1）---Scrapy框架初学习及豆瓣top250电影信息获取的实战

1.在项目文件夹下创建名为main.py或者manage.py的py文件：2.在此py文件下编写代码如下：import sysimport os。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄92天

511: 原创

-: 周排名

-: 总排名

33万+: 访问

: 等级

1万+: 积分

5067: 粉丝

7639: 获赞

6: 评论

7362: 收藏

私信

关注

热门文章

分类专栏

最新评论

运维最新（一）Go---介绍，环境搭建（Windows,Linux）GoLand(IDE),VScode，技术详细介绍
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年运维最全没有学历怎么找运维工作？，35岁以后的Linux运维程序员出路在哪里
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年运维最全没有学历怎么找运维工作？，35岁以后的Linux运维程序员出路在哪里
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
运维排查篇 Linux 连接跟踪表满了怎么处理_connection tracking table
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
linux--系统计划_linux 系统计划
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。