Python实现爬虫：Scrapy爬取csdn博客

最新推荐文章于 2021-07-08 00:48:23 发布

Holidaylovesam

最新推荐文章于 2021-07-08 00:48:23 发布

阅读量1k

点赞数

分类专栏： Python 文章标签： Python 爬虫

本文链接：https://blog.csdn.net/alice_tl/article/details/89393898

版权

在上篇教程中，已经尝试安装好Scrapy，并且解决好了环境问题，这篇文章将创建一个Scrapy项目

包含的步骤主要为：

1、创建一个Scrapy项目

2、定义提取的字段信息Item

3、编写爬取网站的 spider 并提取 Item

4、编写 Item Pipeline 来存储提取到的Item(即数据)

创建爬虫项目

开始爬取之前，必须创建一个新的Scrapy项目。进入希望存储代码的目录中，运行下列命令:

scrapy startproject Alice

该命令将创建一个project项目，名称为Alice，并包含下列内容的 Alice 目录，:

Alice/
    scrapy.cfg
    Alice/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

scrapy.cfg: 项目的配置文件

Alice: 该项目的python模块。之后您将在此加入代码。

Alice/items.py: 项目中的item文件.

Alice/pipelines.py: 项目中的pipelines文件.

Alice/settings.py: 项目的设置文件.

Alice/spiders/: 放置spider代码的目录.