利用mongo-connector将mongodb数据同步到elasticsearch的流程以及会遇到的坑

原文地址
mongodb虽然也提供索引功能,但是功能比较简单,在某些场景下速度相当慢(比如模糊查询的时候)。数据量小的时候也许体现不出来,当数据量达到1000W条记录,所占硬盘大小为10G左右的时候,你就会开始为mongodb提供的查询功能感到头疼。这个时候我们一般采用一款搜索服务器作为查询的后端。我的实际需求是对存储在mongodb中的1000W条百科数据记录进行查询,一次查询包括全匹配、部分匹配等组合操作。

下面我会介绍mongodb数据同步到elasticseacrh的基本流程,以及在此过程中需要注意的一些地方,不要踩我所踩过的坑。这样,如果你的数据量和我差不多,那么至少可以给你节省10多个小时的时间。

一、mongo-connector安装及mongodb配置

这个部分比较按部就班,按照官方提供的文档来就行。本文默认读者已安装好Mongodb,Python,Elasticsearch相关软件,对应的版本分别为3.2.9,2.7.12,5.4.0,操作系统为window10。

根据你Elasticsearch版本,利用pip安装最新版本mongo-connector。(撰写本文时,Elasticsearch版本为5.X,按照mongo-connector文档说明,使用下面的命令进行安装)

pip install mongo-connector[elastic5]

命令括号中的“elastic5”表示对应的文档管理器,由这个组件来控制两个系统之间的文档如何传输。

安装好mongo-connector后,将mongodb以副本集模式进行重启。先将mongodb关闭,输入下列命令:

mongod --replSet myDevReplSet

myDexReplSet是副本集的名称,一般用rs0,这个随意。利用mongo命令进入交互界面后,使用下面的命令初始化你的服务器为副本集:

rs.initiate()

如果mongodb这部分配置出现问题,请参考其他相关文章。这一步我们已经完成所有的准备工作,接下来考虑怎么讲mongodb的数据同步到elasticsearch。

二、数据同步及建立索引

如果大家本身对elasticsearch不熟,直接照搬官网文档的命令或者一些网上的相关博客,这个部分很容易被折磨得死去活来。因此,以前没有接触过elasticsearch或者接触较少,亦或没有mongo-connector实战经验的朋友建议仔细阅读这一部分。

先把官方文档的命令搬上来:

mongo-connector -m <mongodb server hostname>:<replica set port> \
                -t <replication endpoint URL, e
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值