Scrapy与Mongodb结合爬虫
在学习爬虫的时候,突然发现国外的一篇关于scrapy与mongodb结合起来的爬虫,正好我也在学习scrapy与mongodb,正好将学习的过程记录下来,供以后参考,本文就从最基本的环境搭建开始做爬虫,环境为ubuntu 14.04,亲测有效。。。
- 安装scrapy
- 构建scrapy爬虫项目
- 设置DNS服务器
- 安装mongodb
- 安装robomongo可视化客户端
安装scrapy
在Ubuntu中安装各种软件在也简单不过了:
pip install scrapy
让我们新建一个爬虫项目:
scrapy startproject stack
通过这段代码我们生成了爬虫项目,会在当前文件夹下面创建stack目录。
├── scrapy.cfg
└── stack
├── __init__.py
├── items.py
├── pipelines.py
├── settings.py
└── spiders
└── __init__.py
接下来我们来修改其中的代码,因为我们需要爬的网页为stackoverflow.com,
获取提问问题的名称与url,所以需要两个字段,所以修改后的item.py为:
from scrapy.item import Item, Field
class StackItem(Item):
title = Field()
url = Field()
现在我们来创建一个蜘蛛来爬网页,我们建立一个stack_spider.py在spiders文件夹下:
from scrapy import Spider
class StackSpider