爬虫第五战 scrapy小说爬取

最新推荐文章于 2024-08-07 09:00:00 发布

菜鸟程序熊

最新推荐文章于 2024-08-07 09:00:00 发布

阅读量2.9k

点赞数 2

分类专栏： python 文章标签： python scrapy

本文链接：https://blog.csdn.net/KUKI123321/article/details/53730324

版权

本文介绍了使用Scrapy框架爬取小说的步骤，包括创建项目、理解和使用Items、Spider及解析网页内容。通过parse方法解析响应数据，提取Item，并讨论了Item Pipeline的功能，如数据清理、验证和存储。

摘要由CSDN通过智能技术生成

终于发了起点小说爬取的姊妹篇，scrapy小说爬取，到现在这种方式还不是十分理解，但还是试了，也试出了一些成果，那么，现在进入正题

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。（好吧，这是我抄的），操作过程大概是要先建立一个项目，就像这样，在命令提示符中进入到所需要的文件夹中，键入scrapy startproject +你想要将项目命名的名字

然后就会在目的文件夹中发现

打开后会发现是这样的结构

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

结构及其对应功能（摘自scrapy官方文本）