scrapy框架爬虫入mongobd库操作
准备工作:下载可视化工具Robo 3T工具与MongoDB
官网下载
Robot 3T官网:https://robomongo.org/download
MongoDB官网:https://mongodb.com
注意:直接下载速度较慢
爬虫连接数据库mongobd
1.下载pymongo模块
pip install pymongo
2.设置pipelines.py文件
from scrapy.conf import settings
import pymongo
class LreadProjectPipeline(object):
def __init__(self):
# 获取setting主机名、端口号和数据库名称
host = settings['MONGODB_HOST']
port = settings['MONGODB_PORT']
dbname = settings['MONGODB_DBNAME']
# 创建数据库连接
client = pymongo.MongoClient(host=host,port=port)
# 指向指定数据库
mdb = client['scrapy']
# 获取数据库里面存放数据的表名
self.post = mdb[settings['MONGODB_DOCNAME']]
def process_item(self, item, spider):
data = dict(item)
# 向指定的表里添加数据
self.post.insert(data)
return item
3.设置settings.py文件
#启动时,自动加载配置信息
ITEM_PIPELINES = {
'spidertest.pipelines.SpidertestPipeline': 300,
}
#连接数据库,配置MongoDB数据库信息
#本地地址
MONGODB_HOST='127.0.0.1'
#端口
MONGODB_PORT=27017
#数据库名
MONGODB_DBNAME='scrapy'
#表名
MONGODB_DOCNAME='lread'