scrapy完成爬取内容的入库操作（mongodb数据库）（windows下）

最新推荐文章于 2022-01-24 09:58:03 发布

beholder_lin

最新推荐文章于 2022-01-24 09:58:03 发布

阅读量153

点赞数

本文链接：https://blog.csdn.net/beholder_lin/article/details/104415612

版权

一.下载并安装mongodb
详情见其他帖子这里就不加以叙述
二.在settings中打开PIPELINES并把数据库相应配置写入

ITEM_PIPELINES = {
    '<spider_name>.pipelines.DouluodaluPipeline': 300,
}
MONGODB_HOST = '127.0.0.1'
# 端口号，默认27017
MONGODB_PORT = 27017
# 设置数据库名称
MONGODB_DBNAME = 'douluodalu'
# 存放本数据的表名称
MONGODB_DOCNAME = 'douluodalu'

三.修改pipelines文件

import pymongo
from scrapy.utils.project import get_project_settings
settings = get_project_settings()
class DouluodaluPipeline(object):
    def __init__(self):
        # 获取setting主机名、端口号和数据库名称
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        dbname = settings['MONGODB_DBNAME']
        # 创建数据库连接
        client = pymongo.MongoClient(host=host,port=port)
        # 指向指定数据库
        mdb = client[dbname]
        # 获取数据库里面存放数据的表名
        self.post = mdb[settings['MONGODB_DOCNAME']]
    def process_item(self, item, spider):
        data = dict(item)
        # 向指定的表里添加数据
        self.post.insert(data)
        return item

之后运行爬虫，在命令行中或其他 MongoDB GUI中查看数据是否入库
在这里插入图片描述

beholder_lin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy完成爬取内容的入库操作（mongodb数据库）（windows下）

一.下载并安装mongodb详情见其他帖子这里就不加以叙述二.在settings中打开PIPELINES并把数据库相应配置写入ITEM_PIPELINES = { '<spider_name>.pipelines.DouluodaluPipeline': 300,}MONGODB_HOST = '127.0.0.1'# 端口号，默认27017MONGODB_POR...
复制链接

扫一扫