有的时候我们想把mysql或oracle中的数据导入到es中,有很多种方式,这里介绍一种很简单的方式,利用Logstash的jdbc-input插件可以实现。
官方文档链接查看:https://www.elastic.co/guide/en/logstash/2.1/plugins-inputs-jdbc.html
譬如我们想把mysql中某一张表导入到ES中,Logstash的conf可以如下设置:
input {
#this config:output must be es,because the data maybe twice or more ,es can duplicate #removal
jdbc {
jdbc_driver_library => "../lib/mysql-connector-java-5.1.33.jar"
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_connection_string => "jdbc:mysql://10.130.3.211:3306/charts"
jdbc_user => "dbcharts"
jdbc_password=> "Abcd1234"
jdbc_paging_enabled => "true"
jdbc_page_size => "50000"
last_run_metadata_path => "/diskb/logstashlog/.logstash_jdbc_last_run"
# statement_filepath => "jdbc.sql"
# parameters => { "favorite_artist" => "Beethoven" }
schedule => "* * * * *"
statement => "SELECT * from mr_history_analy"
}
}
output {
elasticsearch{
hosts => [ "10.130.2.200:9200","10.130.2.201:9200"]
flush_size=>50000
workers => 5
document_id => "%{jobid}"
index=> "logstash-jdbc-mr-history"
}
}
上述脚本把表charts. mr_history_analy中数据导入到ES中,索引名为logstash-jdbc-mr-history
其中需要注意几点:
1、mysql-connector-java-5.1.33.jar是mysql的连接包,需要自己放在某路径,用jdbc_driver_library指向即可。
2、last_run_metadata_path参数是记录上次执行结果情况,用于断点执行
3、schedule 就像crontab中的调度一样,示例中每分钟执行一次
4、statement为执行的语句,可以加上条件;但需要理解一点,Logstash的conf脚本为启动初始化,不接受动态传参,所以启动的时候语句已然固定。
5、在output中有document_id:可以传入主键列名,用于去重。