scrapy基础操作教程

最新推荐文章于 2024-04-22 15:42:39 发布

朱家政

最新推荐文章于 2024-04-22 15:42:39 发布

阅读量352

点赞数

分类专栏：爬虫 python 文章标签： python

本文链接：https://blog.csdn.net/Gavinhhhh/article/details/107502344

版权

scrapy基础

文章目录

- scrapy基础

一、安装

windows

pip install scrapy

linux


zjz@debian10:~/spider$ sudo apt-get update && sudo apt-get install python3-scrapy

安装成功后终端输入scrapy会显示如下内容：

scrapy
Scrapy 2.2.0 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test commands
  fetch         Fetch a URL using the Scrapy downloader  
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy  
  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

二、基本操作

终端输入scarpy startproject tutorial，自动在当前目录下创建目录：

New Scrapy project 'tutorial', using template directory 'c:\users\zhujz\envs\spider\lib\site-packages\scrapy\templates\project', created in:
    D:\VScodeProject\scrapytest\tutorial

You can start your first spider with:
    cd tutorial
    scrapy genspider example example.com

包含以下文件：

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

1、确认爬取目标

重写(mySpider/items.py)。
比如目标为爬取itcast网站的姓名、职称、信息，新建一个scrapy.Item类，构建 item 模型（model）

import scrapy
class TutorialItem(scrapy.Item):

最低0.47元/天解锁文章

朱家政

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy基础操作教程

scrapy基础文章目录scrapy基础一、安装二、基本操作1、确认爬取目标2、制作爬虫1. 修改start_urls2. 修改parse()方法3. 保存数据一、安装windowspip install scrapylinuxzjz@debian10:~/spider$ sudo apt-get update && sudo apt-get install python3-scrapy安装成功后终端输入scrapy会显示如下内容：scrapyScrapy 2
复制链接

扫一扫