scrapy框架爬虫入mongobd库操作

最新推荐文章于 2021-11-03 11:01:02 发布

LllllWhite

最新推荐文章于 2021-11-03 11:01:02 发布

阅读量246

点赞数

本文链接：https://blog.csdn.net/LllllWhite/article/details/104377630

版权

scrapy框架爬虫入mongobd库操作

准备工作：下载可视化工具Robo 3T工具与MongoDB

官网下载
Robot 3T官网：https://robomongo.org/download
MongoDB官网：https://mongodb.com
注意：直接下载速度较慢

爬虫连接数据库mongobd

1.下载pymongo模块

pip install pymongo

2.设置pipelines.py文件

from scrapy.conf import settings
import pymongo

class LreadProjectPipeline(object):

    def __init__(self):
        # 获取setting主机名、端口号和数据库名称
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        dbname = settings['MONGODB_DBNAME']

        # 创建数据库连接
        client = pymongo.MongoClient(host=host,port=port)

        # 指向指定数据库
        mdb = client['scrapy']

        # 获取数据库里面存放数据的表名
        self.post = mdb[settings['MONGODB_DOCNAME']]

    def process_item(self, item, spider):
        data = dict(item)
        # 向指定的表里添加数据
        self.post.insert(data)
        return item

3.设置settings.py文件

#启动时，自动加载配置信息

ITEM_PIPELINES = {
   'spidertest.pipelines.SpidertestPipeline': 300,
}
#连接数据库，配置MongoDB数据库信息
#本地地址
MONGODB_HOST='127.0.0.1'
#端口
MONGODB_PORT=27017
#数据库名
MONGODB_DBNAME='scrapy'
#表名
MONGODB_DOCNAME='lread'