爬虫第五战 scrapy小说爬取

本文介绍了使用Scrapy框架爬取小说的步骤,包括创建项目、理解和使用Items、Spider及解析网页内容。通过parse方法解析响应数据,提取Item,并讨论了Item Pipeline的功能,如数据清理、验证和存储。
摘要由CSDN通过智能技术生成

终于发了起点小说爬取的姊妹篇,scrapy小说爬取,到现在这种方式还不是十分理解,但还是试了,也试出了一些成果,那么,现在进入正题

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。(好吧,这是我抄的),操作过程大概是要先建立一个项目,就像这样,在命令提示符中进入到所需要的文件夹中,键入scrapy startproject +你想要将项目命名的名字


然后就会在目的文件夹中发现

打开后会发现是这样的结构

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...
结构及其对应功能(摘自scrapy官方文本)
  • scrapy.cfg: 项目的配置文件
  • tutorial/: 该项目的python模块。之后您将在此加入代码。
  • tutorial/items.py: 项目中的item文件.
  • tutorial/pipelines.py: 项目中的pipelines文件.
  • tutorial/settings.py: 项目的设置文件.
  • tutorial/spiders/: 放置spider代码的目录.
接下来说一下各部分的功能,有关功能介绍同样来自官方文
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值