Scrapy爬虫框架简要启动流程

最新推荐文章于 2022-10-21 15:48:10 发布

darthg

最新推荐文章于 2022-10-21 15:48:10 发布

阅读量752

点赞数

分类专栏：笔记文章标签： python scrapy

本文链接：https://blog.csdn.net/darthg/article/details/86486767

版权

本文介绍了Scrapy爬虫框架的基本启动流程，包括创建项目、定义模型、创建爬虫、设置并发数和下载延迟，以及如何在shell中测试和优化爬虫。在settings.py中可以调整并发请求和下载延迟，使用shell命令测试CSS选择器。在遇到导入item类错误时，需要注意类的路径。运行爬虫并暂停或终止，可以通过JOBDIR参数保存爬虫状态。

摘要由CSDN通过智能技术生成

简要流程：

•startproject：创建一个新项目：
•genspider：根据模板生成一个新爬虫：
•crawl：执行爬虫：
•shell：启动交互式抓取控制台。

一.启动项目：

$scrapy startproject example(项目名)
$cd example(项目名)

生成文件结构后
• items .py：该文件定义了待抓取域的模型。
• settings . py：该文件定义了一些设置，如用户代理、爬取延时等。
• spiders／：该目录存储实际的爬虫代码。

二.定义模型（定义抓取数据域）：

# -*- coding: utf-8 -*-
import scrapy


class ExampleItem(scrapy.Item):
    name = scrapy.Field()
    population = scrapy.Field()

三.创建爬虫：

CMD输入以下命令：

$ scrapy genspider country example.webscraping.com --template=crawl

自动在spider文件夹下生成爬虫模板

# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.linkextractor

最低0.47元/天解锁文章

darthg

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬虫框架简要启动流程

简要流程：•startproject：创建一个新项目：•genspider：根据模板生成一个新爬虫：•crawl：执行爬虫：•shell：启动交互式抓取控制台。一.启动项目：$scrapy startproject example(项目名) $cd example(项目名)生成文件结构后• items .py：该文件定义了待抓取域的模型。• settings . ...
复制链接

扫一扫