1.背景描述
es在本公司承载三个部分的业务,站内查询,订单数据统计,elk日志分析。
2020年团队决定对elasticsearch升级。es(elasticsearch缩写,下同)当前版本为1.x,升级到5.x版本。
5.x支持如下新特性:
- 支持lucene 6.x,磁盘空间少一半,索引时间少一半,查询性能提升25%
- Java rest client (high level api)
- Painless 脚本相比groovy脚本,更安全,更简洁,更好的性能
对于站内查询和订单数据统计,当前业务架构是
mysql -> canal -> kafka -> (es Index server) -> es
(可以考虑使用kafka connector 代替canal)
1.1 如何配置 mysql -> canal -> kafka
1.1.1. 配置mysql
开启binlog
[mysqld]
log-bin=mysql-bin # 开启 binlog
binlog-format=ROW # 选择 ROW 模式
server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复
授权给canal用户,让其有复制权限
CREATE USER canal IDENTIFIED BY 'canal';
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';
-- GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' ;
FLUSH PRIVILEGES;
1.1.2 配置canal
下载 https://github.com/alibaba/canal/releases/download/canal-1.1.6/canal.deployer-1.1.6.tar.gz
修改 conf/canal.properties
# tcp, kafka, rocketMQ, rabbitMQ, pulsarMQ
canal.serverMode = kafka # 由kafka消费
kafka.bootstrap.servers = 127.0.0.1:9092
kafka.acks = all
kafka.compression.type = none
kafka.batch.size = 16384
kafka.linger.ms = 1
kafka.max.request.size = 1048576
kafka.buffer.memory = 33554432
kafka.max.in.flight.requests.per.connection = 1
kafka.retries = 0
修改 conf/example/instance.properties
# username/password
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.defaultDatabaseName=mysql_test # 同步的数据库
# mq config
canal.mq.topic=canal_topic # 在kafka的topic
启动canal
./bin/start.sh
1.1.2 启动zookeeper 和 kafka
brew services start zookeeper
brew services start kafka
1.1.3 测试
在db中添加数据,可以使用kafka 脚本看到同步数据
INSERT INTO `mysql_test`.`user` (`id`, `name`) VALUES ('6', 'Bob');
➜ bin ./kafka-console-consum