Python Scrapy项目创建

最新推荐文章于 2024-04-10 19:54:42 发布

那谁家的，小谁

最新推荐文章于 2024-04-10 19:54:42 发布

阅读量1.2k

点赞数

分类专栏：小白菜spider爬虫

本文链接：https://blog.csdn.net/qq_41807489/article/details/106329145

版权

小白菜spider爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、创建一个Scrapy项目

二、在Scrapy项目中创建一个爬虫

三、运行爬虫

一、创建一个Scrapy项目

通过如下命令即可创建 Scrapy 项目：

 scrapy startproject ZhipinSpider

在上面命令中，scrapy 是Scrapy 框架提供的命令；startproject 是 scrapy 的子命令，专门用于创建项目；ZhipinSpider 就是要创建的项目名。

scrapy 除提供 startproject 子命令之外，它还提供了 fetch（从指定 URL 获取响应）、genspider（生成蜘蛛）、shell（启动交互式控制台）、version（查看 Scrapy 版本）等常用的子命令。可以直接输入 scrapy 来查看该命令所支持的全部子命令。

运行上面命令，将会看到如下输出结果：

New Scrapy project 'ZhipinSpider', using template directory 'd:\python3.6\lib\site-packages\scrapy\templates\project', created in:
    C:\Users\mengma\ZhipinSpider

You can start your first spider with:
    cd ZhipinSpider
    scrapy genspider example example.com

上面信息显示 Scrapy 在当前目录下创建了一个 ZhipinSpider 项目，此时在当前目录下就可以看到一个 ZhipinSpider 目录，该目录就代表 ZhipinSpider 项目。
查看 ZhipinSpider 项目，可以看到如下文件结构：

ZhipinSpider
  │  scrapy.cfg
  │
  └──ZhipinSpider
      │  item.py
      │  middlewares.py
      │  pipelines.py
      │  setting.py
      │
      ├─ spiders
      │    │  __init__.py
      │    │
      │    └─ __pycache__
      └─ __pycache__

下面大致介绍这些目录和文件的作用：

scrapy.cfg：项目的总配置文件，通常无须修改。
ZhipinSpider：项目的 Python 模块，程序将从此处导入 Python 代码。
ZhipinSpider/items.py：用于定义项目用到的 Item 类。Item 类就是一个 DTO（数据传输对象），通常就是定义 N 个属性，该类需要由开发者来定义。
ZhipinSpider/pipelines.py：项目的管道文件，它负责处理爬取到的信息。该文件需要由开发者编写。
ZhipinSpider/settings.py：项目的配置文件，在该文件中进行项目相关配置。
ZhipinSpider/spiders：在该目录下存放项目所需的蜘蛛，蜘蛛负责抓取项目感兴趣的信息。

　　为了更好地理解 Scrapy 项目中各组件的作用，下面给出 Scrapy 概览图，如图 1 所示。

图 1 Scrapy 概览图
在图 1 中可以看到，Scrapy 包含如下核心组件：

调度器：该组件由 Scrapy 框架实现，它负责调用下载中间件从网络上下载资源。
下载器：该组件由 Scrapy 框架实现，它负责从网络上下载数据，下载得到的数据会由 Scrapy 引擎自动交给蜘蛛。
蜘蛛：该组件由开发者实现，蜘蛛负责从下载数据中提取有效信息。蜘蛛提取到的信息会由 Scrapy 引擎以 Item 对象的形式转交给 Pipeline。
Pipeline：该组件由开发者实现，该组件接收到 Item 对象（包含蜘蛛提取的信息）后，可以将这些信息写入文件或数据库中。

经过上面分析可知，使用 Scrapy 开发网络爬虫主要就是开发两个组件，蜘蛛和 Pipeline。

二、在Scrapy项目中创建一个爬虫

F:\spider爬虫\scrapy\FirstDemo>scrapy genspider nuike nowcoder.com

scrapy genspider 接受两个参数第一个参数 nuike:爬虫名称，第二个参数要爬取的域名。

回车之后此时项目目录中的spiders下会有nuike.py文件内容如下：

# -*- coding: utf-8 -*-
import scrapy


class NiukeSpider(scrapy.Spider):
    name = 'niuke' #爬虫名称 
    allowed_domains = ['nowcoder.com'] #允许爬取的域名，多个域名可以通过逗号隔开
    start_urls = ['http://nowcoder.com/']  # 爬虫首次启动时爬取的地址

    def parse(self, response):
        print(response,response.url) #打印出爬取的内容和地址
        pass

好了，接下来就是爬虫的编写过程了。

三、运行爬虫


scrapy list 获取当前的爬虫列表


scrapy crawl niuke（爬虫的名称）

运行蜘蛛除了使用：scrapy crawl XX之外，我们还能用：runspider，前者是基于项目运行，后者是基于文件运行，也就是说你按照scrapy的蜘蛛格式编写了一个py文件，那你不想创建项目，那你就可以使用runspider，比如你编写了一个：scrapyd_cn.py的蜘蛛，你要直接运行就是：

scrapy runspider scrapy_cn.py

scrapy调试命令

scrapy shell http://www.scrapyd.cn（调试网址为http://www.scrapyd.cn的网站），

此时可以正常的获取数据，

但第二次再次爬取或多次爬取之后可能会报错，因为此时的爬虫会使用默认的User-Agent，部分网站服务器识别之后出于保护的目的会阻止再次访问，此时可以修改爬虫的默认User-Agent：

即将浏览器的User-Agent;复制到setting.py里面的USERAGENT。然后多次请求验证是否能够正常访问。

默认情况下爬虫会遵循robots.txt协议，可以在setting.py关闭

# Obey robots.txt rules
ROBOTSTXT_OBEY = True   #更改为falseg不再遵守robots.txt协议

记得学习一下xpath规则：https://www.w3school.com.cn/xpath/index.asp。

开启你的爬虫之旅吧。。。

那谁家的，小谁

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python Scrapy项目创建

在使用Scrapy开发爬虫时，通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目：scrapy startproject ZhipinSpider在上面命令中，scrapy 是Scrapy 框架提供的命令；startproject 是 scrapy 的子命令，专门用于创建项目；ZhipinSpider 就是要创建的项目名。scrapy 除提供 startproject 子命令之外，它还提供了 fetch（从指定 URL 获取响应）、genspider（生成蜘蛛...
复制链接

扫一扫