Python实现爬虫:Scrapy爬取csdn博客

在上篇教程中,已经尝试安装好Scrapy,并且解决好了环境问题,这篇文章将创建一个Scrapy项目

包含的步骤主要为:

1、创建一个Scrapy项目

2、定义提取的字段信息Item

3、编写爬取网站的 spider 并提取 Item

4、编写 Item Pipeline 来存储提取到的Item(即数据)

 

创建爬虫项目

开始爬取之前,必须创建一个新的Scrapy项目。 进入希望存储代码的目录中,运行下列命令:

scrapy startproject Alice

该命令将创建一个project项目,名称为Alice,并包含下列内容的 Alice 目录,:

Alice/
    scrapy.cfg
    Alice/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

  • scrapy.cfg: 项目的配置文件
  • Alice: 该项目的python模块。之后您将在此加入代码。
  • Alice/items.py: 项目中的item文件.
  • Alice/pipelines.py: 项目中的pipelines文件.
  • Alice/settings.py: 项目的设置文件.
  • Alice/spiders/: 放置spider代码的目录.

 

定义保存数据的容器Item

Item 是保存爬取到的数据的容器,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

通过创建一个 scrapy.Item 类, 并且定义类型为 scrapy.Fi

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值