python爬虫入门笔记：用scrapy爬豆瓣

最新推荐文章于 2024-06-07 17:16:22 发布

flyingfishmark

最新推荐文章于 2024-06-07 17:16:22 发布

阅读量1.7w

点赞数 13

分类专栏： python 文章标签： python 爬虫 scrapy 豆瓣

本文链接：https://blog.csdn.net/flyingfishmark/article/details/51316159

版权

本文希望达到以下目标:

简要介绍Scarpy
使用Scarpy抓取豆瓣电影

我们正式讲scrapy框架爬虫，并用豆瓣来试试手，url:http://movie.douban.com/top250

首先先要回答一个问题。

问：把网站装进爬虫里，总共分几步？

答案很简单，四步：

新建项目 (Project)：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容

好的，基本流程既然确定了，那接下来就一步一步的完成就可以了。

1.新建项目（Project）

在空目录下按住Shift键右击，选择“在此处打开命令窗口”，输入一下命令：

<span style="font-size:14px;">scrapy startproject douban</span>

其中，douban为项目名称。

可以看到将会创建一个douban文件夹，目录结构如下：

douban/
    scrapy.cfg
    douban/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...</span>

我们用pycharm打开该项目，具体看一下：

下面来简单介绍一下各个文件的作用：

scrapy.cfg：项目的配置文件
douban/：项目的Python模块，将会从这里引用代码
douban/items.py：项目的items文件
douban/pipelines.py：项目的pipelines文件
douban/settings.py：项目的设置文件
douban/spiders/：存储爬虫的目录

最低0.47元/天解锁文章

flyingfishmark

关注

13
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
python爬虫入门笔记：用scrapy爬豆瓣

本文希望达到以下目标:简要介绍Scarpy使用Scarpy抓取豆瓣电影我们正式讲scrapy框架爬虫，并用豆瓣来试试手，url:http://movie.douban.com/top250首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的
复制链接

扫一扫