logstash mysql 准实时同步到 elasticsearch

标签: logstash elasticsearch mysql 数据同步
7人阅读 评论(0) 收藏 举报

mysql 作为成熟稳定的数据持久化解决方案,广泛地应用在各种领域,但是在数据分析方面稍有不足,而 elasticsearch 作为数据分析领域的佼佼者,刚好可以弥补这项不足,而我们要做的只需要将 mysql 中的数据同步到 elasticsearch 中即可,而 logstash 刚好就可以支持,所有你需要做的只是写一个配置文件而已

logstash 获取

获取 logstash

wget https://artifacts.elastic.co/downloads/logstash/logstash-6.2.3.zip
unzip logstash-6.2.3.zip && cd logstash-6.2.3

安装 jdbc 和 elasticsearch 插件

bin/logstash-plugin install logstash-input-jdbc
bin/logstash-plugin install logstash-output-elasticsearch

获取 jdbc mysql 驱动

wget https://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.46.zip
unzip mysql-connector-java-5.1.46.zip

编写配置文件

logstash-input-jdbc

使用 logstash-input-jdbc 插件读取 mysql 的数据,这个插件的工作原理比较简单,就是定时执行一个 sql,然后将 sql 执行的结果写入到流中,增量获取的方式没有通过 binlog 方式同步,而是用一个递增字段作为条件去查询,每次都记录当前查询的位置,由于递增的特性,只需要查询比当前大的记录即可获取这段时间内的全部增量,一般的递增字段有两种,AUTO_INCREMENT 的主键 idON UPDATE CURRENT_TIMESTAMPupdate_time 字段,id 字段只适用于那种只有插入没有更新的表,update_time 更加通用一些,建议在 mysql 表设计的时候都增加一个 update_time 字段

input {
  jdbc {
    jdbc_driver_library => "../mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://<mysql_host>:3306/rta"
    jdbc_user => "<username>"
    jdbc_password => "<password>"
    schedule => "* * * * *"
    statement => "SELECT * FROM table WHERE update_time >= :sql_last_value"
    use_column_value => true
    tracking_column_type => "timestamp"
    tracking_column => "update_time"
    last_run_metadata_path => "syncpoint_table"
  }
}
  • jdbc_driver_library: jdbc mysql 驱动的路径,在上一步中已经下载
  • jdbc_driver_class: 驱动类的名字,mysql 填 com.mysql.jdbc.Driver 就好了
  • jdbc_connection_string: mysql 地址
  • jdbc_user: mysql 用户
  • jdbc_password: mysql 密码
  • schedule: 执行 sql 时机,类似 crontab 的调度
  • statement: 要执行的 sql,以 “:” 开头是定义的变量,可以通过 parameters 来设置变量,这里的 sql_last_value 是内置的变量,表示上一次 sql 执行中 update_time 的值,这里 update_time 条件是 >= 因为时间有可能相等,没有等号可能会漏掉一些增量
  • use_column_value: 使用递增列的值
  • tracking_column_type: 递增字段的类型,numeric 表示数值类型, timestamp 表示时间戳类型
  • tracking_column: 递增字段的名称,这里使用 update_time 这一列,这列的类型是 timestamp
  • last_run_metadata_path: 同步点文件,这个文件记录了上次的同步点,重启时会读取这个文件,这个文件可以手动修改

logstash-output-elasticsearch

output {
  elasticsearch {
    hosts => ["172.31.22.165", "172.31.17.241", "172.31.30.84", "172.31.18.178"]
    user => "<user>"
    password => "<password>"
    index => "table"
    document_id => "%{id}"
  }
}
  • hosts: es 集群地址
  • user: es 用户名
  • password: es 密码
  • index: 导入到 es 中的 index 名,这里我直接设置成了 mysql 表的名字
  • document_id: 导入到 es 中的文档 id,这个需要设置成主键,否则同一条记录更新后在 es 中会出现两条记录,%{id} 表示引用 mysql 表中 id 字段的值

运行

把上面的代码保存到一个配置文件里面 sync_table.cfg,执行下面命令即可

cd logstash-6.2.3 && bin/logstash -f config/sync_table.cfg

如果成功了会在标准输出输出执行的 sql 语句

[2018-04-14T18:12:00,278][INFO ][logstash.inputs.jdbc     ] (0.001011s) SELECT version()
[2018-04-14T18:12:00,284][INFO ][logstash.inputs.jdbc     ] (0.000723s) SELECT * FROM table WHERE update_time > '2018-04-14 17:55:00'

其他问题

多表同步

一个 logstash 实例可以借助 pipelines 机制同步多个表,只需要写多个配置文件就可以了,假设我们有两个表 table1 和 table2,对应两个配置文件 sync_table1.cfgsync_table2.cfg

config/pipelines.yml 中配置

- pipeline.id: table1
  path.config: "config/sync_table1.cfg"
- pipeline.id: table2
  path.config: "config/sync_table2.cfg"

直接 bin/logstash 启动即可

@timestamp 字段

默认情况下 @timestamp 字段是 logstash-input-jdbc 添加的字段,默认是当前时间,这个字段在数据分析的时候非常有用,但是有时候我们希望使用数据中的某些字段来指定这个字段,这个时候可以使用 filter.date, 这个插件是专门用来设置 @timestamp 这个字段的

比如我有我希望用字段 timeslice 来表示 @timestamptimeslice 是一个字符串,格式为 %Y%m%d%H%M

filter {
  date {
    match => [ "timeslice", "yyyyMMddHHmm" ]
    timezone => "Asia/Shanghai"
  }
}

把这一段配置加到 sync_table.cfg 中,现在 @timestamptimeslice 一致了

参考链接

转载请注明出处
本文链接:http://www.hatlonely.com/2018/04/14/logstash-mysql-%E5%87%86%E5%AE%9E%E6%97%B6%E5%90%8C%E6%AD%A5%E5%88%B0-elasticsearch/

查看评论

logstash-input-jdbc实现mysql 与elasticsearch实时同步深入详解

引言:elasticsearch 的出现使得我们的存储、检索数据更快捷、方便。但很多情况下,我们的需求是:现在的数据存储在mysql、oracle等关系型传统数据库中,如何尽量不改变原有数据库表结构,...
  • wojiushiwo987
  • wojiushiwo987
  • 2016-06-23 22:39:17
  • 29354

Logstash实时同步mysql数据库至elastic

shipper文件中的主要目标,定时刷新最新有变更的(依据update_date)数据至elastic,初始时直接插入,elastic检测到id相同时,则更新自有的数据。...
  • xiaohelong2005
  • xiaohelong2005
  • 2017-05-09 15:55:31
  • 3374

elasticsearch5.2.1使用logstash同步mysql

首先安装好mysql,elasticsearch参考另一篇文章 安装logstash 官方:https://www.elastic.co/guide/en/logstash/current/insta...
  • kang5789
  • kang5789
  • 2017-08-30 12:35:49
  • 1065

logstash-out-mongodb实现elasticsearch到Mongodb的数据同步

本文主要实现将Elasticsearch中的索引数据Index同步到Mongodb中的集合collection中。0、前提1)已经安装好源数据库:elasticsearch V2.X; 2)已经安装...
  • wojiushiwo987
  • wojiushiwo987
  • 2017-03-23 21:10:13
  • 2675

logstash-input-jdbc实现mysql 与elasticsearch实时同步

jdbc_log.conf: input { jdbc { jdbc_connection_string => "jdbc:mysql://192.168.13.223:3306/test...
  • qq_16504067
  • qq_16504067
  • 2017-09-02 10:31:11
  • 411

elasticsearch2.3.2服务搭建、管理及实时同步mysql数据

elasticsearch是基于Luence的一个全文检索框架,高效,快速,准确。 本文参考一下几篇博客: http://blog.csdn.net/cnweike/article/det...
  • dewffgqd
  • dewffgqd
  • 2017-06-26 16:20:31
  • 580

实时同步MySQL数据到Elasticsearch

CDC工具可选择Oracle GoldenGate或者Zendesk开源的Maxwell,MySQL->GoldenGate或Maxwell->Kafka->Logstash->Elasticsear...
  • colinluo
  • colinluo
  • 2016-10-10 22:59:39
  • 2427

logstash-input-jdbc实现oracle 与elasticsearch实时同步详解

前言:logstash-input-jdbc实现mysql 与elasticsearch的解读之前博文已经解析。本次只是在原有的基础上,针对oracle特性部分做解读。 目标:实现了oracle与ES...
  • wojiushiwo987
  • wojiushiwo987
  • 2016-07-04 23:32:29
  • 13620

logstash 安装导入mysql数据至ElasticSearch

0:安装好ElasticSearch 1:然后解压 logstash安装包 unzip  logstash-5.4.0.zip 2:安装logstash-input-jdbc 插件(版本5X以上直...
  • qq_33863843
  • qq_33863843
  • 2017-12-25 15:23:36
  • 399

Logstash的logstash-input-jdbc插件mysql数据同步ElasticSearch及词库

Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。 http://kibana.logst...
  • wljk506
  • wljk506
  • 2017-02-24 10:00:13
  • 5117
    个人资料
    持之以恒
    等级:
    访问量: 5257
    积分: 419
    排名: 11万+
    文章分类
    最新评论