之前我们已经介绍过全量索引和增量索引了,对于增量索引,我们使用了logstash定时,1分钟扫描一次,虽然可以解决一些问题,但是对于大数据量的,可能并不适用,因此再介绍一个新的索引构建中间件。
我们对增量构建的要求:准实时性(可以理解为异步),性能要求,编程简化要求。
关于阿里canal,可以理解为一个消息管道,管道中有一个source可以理解为mysql数据库,target可以理解为其他存储,在这就是es。
可以看下文档https://github.com/alibaba/canal,里面有介绍关于原理方面。
首先需要开启mysql的binary log,默认是关闭的,在mysql目录下,my.ini:
在最后加上:
#因为开启binary log是为了同步分布式数据使用的,所以每个节点都要有id
server-id=1
#mysql使用行方式做binary log存储
binlog_format=ROW
#binary log文件相对路径
log_bin=mysql_bin
然后重启,查看命令:show variables like 'log_bin';
这样,mysql就会将 binary log写入指定的磁盘文件。
接下来,需要有一个复制权限的账户给canal,
CREATE USER canal IDENTIFIED BY 'canal';
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' indentified by 'canal';
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'localhost' indentified by 'canal';
FLUSH PRIVILEGES;
在上面网址下载canal.deployer,然后打开conf\example\instance.properties
## mysql serverId
canal.instance.mysql.slaveId = 1234
#position info,需要改成自己的数据库信息
canal.instance.master.address = 127.0.0.1:3306
canal.instance.master.journal.name =
canal.instance.master.position =
canal.instance.master.timestamp =
#canal.instance.standby.address =
#canal.instance.standby.journal.name =
#canal.instance.standby.position =
#canal.instance.standby.timestamp =
#username/password,需要改成自己的数据库信息
canal.instance.dbUsername = canal
canal.instance.dbPassword = canal
canal.instance.defaultDatabaseName =
canal.