scrapy学习

记录下scrapy学习使用过程,后续想起来写的时候会更新。


项目流程

在想要创建scrapy文档的位置打开cmd,进入对应的虚拟环境

1. 新建项目
scrapy startproject 爬虫文件名

生成文件结构如下:

mySpider/               # 根目录
    scrapy.cfg
    mySpider/           # 二级目录
        __init__.py
        items.py        # 需要改写,定义存储结构
        pipelines.py
        settings.py
        spiders/        # 三级目录
            __init__.p

在三级目录mySpider/spiders下:

scrapy genspider 爬虫名称 "爬取域范围"

在当前目录下自动生成一个 爬虫名称.py 文件,也可以手动创建后粘贴下面代码:

import scrapy

class ItcastSpider(scrapy.Spider):
    name = "爬虫名称"
    allowed_domains = ["爬取域范围"]
    start_urls = (
        'http://www.爬取域范围/',
    )

    def parse(self, response):
        pass

在根目录下新建 begin.py 文件,并将下面的代码粘贴进去:

from scrapy import cmdline
cmdline.execute("scrapy crawl spiName".split())
# spiName为爬虫名字,在spider.py中定义

注意将项目启动目录修改到 begin.py 文件

2. 确定目标

编写 items.py 文件,明确抓取目标

3. 制作爬虫

spiders.py 制作爬虫

4. 存储内容

pipelines.py 设计管道存储内容

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值