python爬虫入门笔记：用scrapy爬豆瓣

最新推荐文章于 2024-08-05 10:37:56 发布

flyingfishmark

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量1.7w

点赞数 13

分类专栏： python 文章标签： python 爬虫 scrapy 豆瓣

本文链接：https://blog.csdn.net/flyingfishmark/article/details/51316159

版权

本文是关于Python爬虫入门的教程，重点介绍了如何使用Scrapy框架抓取豆瓣电影Top250的数据。内容包括新建Scrapy项目、定义Item、编写Spider以及设置Pipeline来存储爬取的内容。通过这个教程，读者可以了解到Scrapy的基本工作流程。

摘要由CSDN通过智能技术生成

本文希望达到以下目标:

简要介绍Scarpy
使用Scarpy抓取豆瓣电影

我们正式讲scrapy框架爬虫，并用豆瓣来试试手，url:http://movie.douban.com/top250

首先先要回答一个问题。

问：把网站装进爬虫里，总共分几步？

答案很简单，四步：

新建项目 (Project)：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容

好的，基本流程既然确定了，那接下来就一步一步的完成就可以了。

1.新建项目（Project）

在空目录下按住Shift键右击，选择“在此处打开命令窗口”，输入一下命令：

<span style="font-size:14px;">scrapy startproject douban</span>

其中，douban为项目名称。

可以看到将会创建一个douban文件夹，目录结构如下：

douban/
    scrapy.cfg
    douban/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...</span>

我们用pycharm打开该项目，具体看一下：

下面来简单介绍一下各个文件的作用：

scrapy.cfg：项目的配置文件
douban/：项目的Python模块，将会从这里引用代码
douban/items.py：项目的items文件
douban/pipelines.py：项目的pipelines文件
douban/settings.py：项目的设置文件
douban/spiders/：存储爬虫的目录

最低0.47元/天解锁文章

flyingfishmark

关注

13
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录