Scrapy与Mongodb结合爬虫

最新推荐文章于 2024-06-17 13:03:03 发布

xuzhenlei1234

最新推荐文章于 2024-06-17 13:03:03 发布

阅读量1.2k

点赞数

分类专栏：爬虫文章标签： mongodb ubuntu 爬虫

本文链接：https://blog.csdn.net/u013473520/article/details/50239269

版权

本文记录了在Ubuntu 14.04环境下，如何使用Scrapy爬虫框架抓取数据并存储到Mongodb的过程。首先介绍了安装Scrapy和创建爬虫项目，然后解析HTML获取所需信息，接着安装并配置Mongodb，最后编写代码将数据存入数据库。通过这次实践，掌握了Scrapy的使用和数据存储到NoSQL数据库的方法。

摘要由CSDN通过智能技术生成

Scrapy与Mongodb结合爬虫

在学习爬虫的时候，突然发现国外的一篇关于scrapy与mongodb结合起来的爬虫，正好我也在学习scrapy与mongodb，正好将学习的过程记录下来，供以后参考，本文就从最基本的环境搭建开始做爬虫，环境为ubuntu 14.04，亲测有效。。。

安装scrapy
构建scrapy爬虫项目
设置DNS服务器
安装mongodb
安装robomongo可视化客户端

安装scrapy

在Ubuntu中安装各种软件在也简单不过了：

pip install scrapy

让我们新建一个爬虫项目：

scrapy startproject stack

通过这段代码我们生成了爬虫项目，会在当前文件夹下面创建stack目录。

├── scrapy.cfg
└── stack
    ├── __init__.py
    ├── items.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py

接下来我们来修改其中的代码，因为我们需要爬的网页为stackoverflow.com，
获取提问问题的名称与url，所以需要两个字段,所以修改后的item.py为：

from scrapy.item import Item, Field

class StackItem(Item):
    title = Field()
    url = Field()

现在我们来创建一个蜘蛛来爬网页，我们建立一个stack_spider.py在spiders文件夹下：

from scrapy import Spider


class StackSpider

最低0.47元/天解锁文章