scrapy命令笔记

#1.生成新的Scrapy工程:
生成新工程命令为:

scrapy startproject 工程名称

例如:在某目录下运行CMD或者终端
输入以下指令:

scrapy startproject scapyTest

若项目生成成功,则会返回类似如下的信息:

New Scrapy project 'scapyTest', using template directory 'd:\\develop\\python\\lib\\site-packages\\scrapy\\templates\\project', created in:
    D:\PyProjects\scapyTest

You can start your first spider with:
    cd scapyTest
    scrapy genspider example example.com

生成的目录结构:

root@SISBIAN:/mnt/d/PyProjects/scapyTest# tree
.
├── scapyTest
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py	# 项目默认中间件
│   ├── pipelines.py
│   ├── settings.py		# 项目主要设置文件
│   └── spiders		# 项目爬虫存放文件夹
│       └── __init__.py
└── scrapy.cfg

#2.生成爬虫
一个工程中可以存在多个爬虫.
生成爬虫的命令如下:

scrapy genspider 爬虫名称 要爬取的网站,当然也可以是个接口或者子页面

例如,在scapyTest目录下运行命令:
注意,请勿在输入网址时带有协议名称,例如:(https://)

scrapy genspider ipTest www.baidu.com/s?wd=ip

如果生成成功会得到如下提示:

Created spider 'ipTest' using template 'basic' in module:
  scapyTest.spiders.ipTest

目录结构发生变化如下(手动忽略了.pyc文件,如果多出了.pyc是正常的):

root@SISBIAN:/mnt/d/PyProjects/scapyTest# tree
.
├── scapyTest
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── ipTest.py	# 生成的新爬虫
└── scrapy.cfg

爬虫内容如下:

# -*- coding: utf-8 -*-
import scrapy


class IptestSpider(scrapy.Spider):
    name = "ipTest"  # 爬虫名称,在调用爬虫时以此为准
    allowed_domains = ["www.baidu.com/s?wd=ip"]
    start_urls = ['http://www.baidu.com/s?wd=ip/']

    def parse(self, response):
        pass

爬虫中的parse方法就是获得成功后调用的方法
我们将获取的内容打印出来(修改parse方法):

	def parse(self, response):
		self.log(response.body)
        pass

#3.运行爬虫
爬虫运行命令如下:

scrapy crawl 爬虫名称

例如,在scpay目录下运行命令:

scrapy crawl ipTest
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值