scrapy学习

最新推荐文章于 2023-12-20 19:35:22 发布

starDuct

最新推荐文章于 2023-12-20 19:35:22 发布

阅读量177

点赞数 1

分类专栏：学习记录文章标签： python 爬虫

本文链接：https://blog.csdn.net/starDuct/article/details/111397609

版权

学习记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

记录下scrapy学习使用过程，后续想起来写的时候会更新。

文章目录

- 项目流程

项目流程

在想要创建scrapy文档的位置打开cmd，进入对应的虚拟环境

1. 新建项目

scrapy startproject 爬虫文件名

生成文件结构如下：

mySpider/               # 根目录
    scrapy.cfg
    mySpider/           # 二级目录
        __init__.py
        items.py        # 需要改写，定义存储结构
        pipelines.py
        settings.py
        spiders/        # 三级目录
            __init__.p

在三级目录mySpider/spiders下：

scrapy genspider 爬虫名称 "爬取域范围"

在当前目录下自动生成一个爬虫名称.py 文件，也可以手动创建后粘贴下面代码：

import scrapy

class ItcastSpider(scrapy.Spider):
    name = "爬虫名称"
    allowed_domains = ["爬取域范围"]
    start_urls = (
        'http://www.爬取域范围/',
    )

    def parse(self, response):
        pass

在根目录下新建 begin.py 文件,并将下面的代码粘贴进去：

from scrapy import cmdline
cmdline.execute("scrapy crawl spiName".split())
# spiName为爬虫名字，在spider.py中定义

注意将项目启动目录修改到 begin.py 文件

2. 确定目标

编写 items.py 文件,明确抓取目标

3. 制作爬虫

spiders.py 制作爬虫

4. 存储内容

pipelines.py 设计管道存储内容

starDuct

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
scrapy学习

记录下scrapy学习使用过程文章目录项目流程1. 新建项目2. 确定目标3. 制作爬虫4. 存储内容项目流程在想要创建scrapy文档的位置打开cmd，进入对应的虚拟环境1. 新建项目scrapy startproject 爬虫文件名生成文件结构如下：mySpider/ # 根目录 scrapy.cfg mySpider/ # 二级目录 __init__.py items.py
复制链接

扫一扫