【python】【爬虫】妖精的爬虫学习之路——scrapy入门

最新推荐文章于 2023-06-08 16:11:22 发布

我是一只妖精

最新推荐文章于 2023-06-08 16:11:22 发布

阅读量162

点赞数

分类专栏：爬虫 python scrapy 文章标签： python scrapy 爬虫

本文链接：https://blog.csdn.net/aaaaassssd/article/details/88972754

版权

使用前自行安装scrapy，教程百度

创建项目：

在要放代码的位置，输入

scrapy startproject [ProjectName]

在这里插入图片描述
项目结构如下：

MtTest/
    scrapy.cfg    // 项目的配置文件
    MyTest/
        __init__.py
        items.py    //项目中的item文件
        pipelines.py    // 项目中的pipelines文件
        settings.py    //项目的设置文件
        middlewares.py    // 中间件（有时可能没有这个文件）
        spiders/             //放置spider代码的目录
            __init__.py
            ...

Scrapy使用流程：

选择网站（拿简书首页做例子了）
定义要抓取的数据（即 items.py）
编写提取数据的spider（即spiders文件夹）
查看提取到的数据（scraped_data.json）

中间件介绍：

middlewares中有以下函数：

process_spider_input：当response通过spider中间件时，该方法被调用，处理该response
process_spider_output:：当Spider处理response返回result时，该方法被调用
process_spider_exception： just like the name
process_start_requests：该方法以spider 启动的request为参数被调用，执行的过程类似于 process_spider_output() ，只不过其没有相关联的response并且必须返回request(不是item)。其接受一个可迭代的对象(start_requests 参数)且必须返回另一个包含 Request 对象的可迭代对象。

1.定义要抓取的数据

在items.py中

class MytestItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field<

最低0.47元/天解锁文章

我是一只妖精

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【python】【爬虫】妖精的爬虫学习之路——scrapy入门

创建项目：在要放代码的位置，输入scrapy startproject [ProjectName]项目结构如下：
复制链接

扫一扫

专栏目录