Scrapy与Mongodb结合爬虫

本文记录了在Ubuntu 14.04环境下,如何使用Scrapy爬虫框架抓取数据并存储到Mongodb的过程。首先介绍了安装Scrapy和创建爬虫项目,然后解析HTML获取所需信息,接着安装并配置Mongodb,最后编写代码将数据存入数据库。通过这次实践,掌握了Scrapy的使用和数据存储到NoSQL数据库的方法。
摘要由CSDN通过智能技术生成

Scrapy与Mongodb结合爬虫

在学习爬虫的时候,突然发现国外的一篇关于scrapy与mongodb结合起来的爬虫,正好我也在学习scrapy与mongodb,正好将学习的过程记录下来,供以后参考,本文就从最基本的环境搭建开始做爬虫,环境为ubuntu 14.04,亲测有效。。。

  • 安装scrapy
  • 构建scrapy爬虫项目
  • 设置DNS服务器
  • 安装mongodb
  • 安装robomongo可视化客户端

安装scrapy

在Ubuntu中安装各种软件在也简单不过了:

pip install scrapy

让我们新建一个爬虫项目:

scrapy startproject stack

通过这段代码我们生成了爬虫项目,会在当前文件夹下面创建stack目录。

├── scrapy.cfg
└── stack
    ├── __init__.py
    ├── items.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py

接下来我们来修改其中的代码,因为我们需要爬的网页为stackoverflow.com
获取提问问题的名称与url,所以需要两个字段,所以修改后的item.py为:

from scrapy.item import Item, Field

class StackItem(Item):
    title = Field()
    url = Field()

现在我们来创建一个蜘蛛来爬网页,我们建立一个stack_spider.py在spiders文件夹下:

from scrapy import Spider


class StackSpider
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值