Scrapy爬虫框架简要启动流程

本文介绍了Scrapy爬虫框架的基本启动流程,包括创建项目、定义模型、创建爬虫、设置并发数和下载延迟,以及如何在shell中测试和优化爬虫。在settings.py中可以调整并发请求和下载延迟,使用shell命令测试CSS选择器。在遇到导入item类错误时,需要注意类的路径。运行爬虫并暂停或终止,可以通过JOBDIR参数保存爬虫状态。
摘要由CSDN通过智能技术生成

简要流程:

•startproject:创建一个新项目:
•genspider:根据模板生成一个新爬虫:
•crawl:执行爬虫:
•shell:启动交互式抓取控制台。

 

一.启动项目:

  1. $scrapy startproject example(项目名)
  2. $cd example(项目名)

生成文件结构后
• items .py: 该文件定义了待抓取域的模型。
• settings . py: 该文件定义了一些设置, 如用户代理、爬取延时等。
• spiders/: 该目录存储实际的爬虫代码。

二.定义模型(定义抓取数据域):

# -*- coding: utf-8 -*-
import scrapy


class ExampleItem(scrapy.Item):
    name = scrapy.Field()
    population = scrapy.Field()

三.创建爬虫:

CMD输入以下命令:

$ scrapy genspider country example.webscraping.com --template=crawl

自动在spider文件夹下生成爬虫模板

# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.linkextractor
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值