logstash-input-jdbc插件实现关系型数据库和ES增量同步

最新推荐文章于 2024-08-17 13:50:57 发布

Gchaochao

最新推荐文章于 2024-08-17 13:50:57 发布

阅读量1.4k

点赞数

文章标签： logstash-input-jdbc 数据库同步

本文链接：https://blog.csdn.net/g1969119894/article/details/80250114

版权

环境安装

从官网下载你要部署环境的相应安装包，这里以linux系统为例。
选择与你的ES相同版本的logstash的tar.gz包，上传解压，进入解压目录下测试下。
使用bin/logstash -e 'input { stdin { } } output { stdout {} }'，启动后输入任意内容后，如果有返回则表示安装成功
这里写图片描述

使用logstash-input-jdbc插件

先使用bin/logstash-plugin list查看下已安装好的插件一般5.X以后的版本都会默认安装好此插件。
这里写图片描述

下面罗列一下，要实现增量同步需要的东西，以orcal为例：

orcal连接jar包
能搜索新增值的sql
我的sql： :sql_last_value是上次同步的最后值

select *
from drc_policy_publish p
where record_no > :sql_last_value  
order by record_no

接下类创建一个启动的conf文件，vi conf/orcal.conf,里面配置如下

input {
    jdbc {
        jdbc_connection_string => "jdbc:oracle:thin:@//ip:1521/orcl"
        # 用户名和密码
        jdbc_user => "user"
        jdbc_password => "password"
        # 驱动，准备的连接jar包位置
        jdbc_driver_library => "/opt/elk/logstash-5.6.8/orcal/ojdbc-6.jar"
        # 驱动类名
        jdbc_driver_class => "Java::oracle.jdbc.driver.OracleDriver"
        #配置一次同步的最大数量
        jdbc_paging_enabled => "true"
        jdbc_page_size => "50000"

        # 执行的sql 文件路径+名称
        statement_filepath => "/opt/elk/logstash-5.6.8/orcal/sql/policy.sql"

        # 设置监听间隔  各字段含义（由左至右）分、时、天、月、年，全部为*默认含义为每分钟都更新
        schedule => "* * * * *"

        # 是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中
        record_last_run => "true"

        # 是否需要记录某个column 的值,如果record_last_run为真,可以自定义我们需要 track 的 column 名称，此时该参数就要为 true. 否则默认 track 的是 timestamp 的值.
        use_column_value => "true"

        # 如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的. 一般是mysql主键
        tracking_column => "record_no"
        #用于保存上次同步的最后值，先新建，输入0比较好，不然是使用null去比较
        last_run_metadata_path => "/opt/elk/logstash-5.6.8/orcal/last_id"

        # 是否清除 last_run_metadata_path 的记录,如果为真那么每次都相当于从头开始查询所有的数据库记录
        clean_run => "false"

        # 是否将 字段(column) 名称转小写
        lowercase_column_names => "true"

    }
}

filter {
    json {
        source => "message"
        remove_field => ["message"]
    }
}

output {
    elasticsearch {
        hosts => "ip:9200"
        index => "orcal"
        document_type => "drc_polic_publish"
        # 将"_id"的值设为数据库主键
        document_id => "%{record_no}"
    }
}