利用logstash同步数据至elasticsearch

1.安装

需要安装的应用:logstash,elasticsearch(这两项安装参考我的博客相关介绍),mysql连接器:mysql-connector-java-5.1.34.jar,下载地址:https://dev.mysql.com/downloads/connector/j/5.1.html

2.配置

(1)进入logstash创建目录,我这里在bin目录下创建了mysql目录
在这里插入图片描述
将刚刚下载的MySQL连接器的文件解压,将mysql-connector-java-5.1.48.jar拷贝到你刚刚创建的mysql目录下(我这里是/usr/local/logstash-6.4.2/bin/mysql):
在这里插入图片描述
在这里插入图片描述
(2)编辑导入配置文件,同样在刚刚创建的mysql目录下创建jdbc.conf文件(此文件将配置数据库连接信息、查询数据sql、分页信息、同步频率等核心信息。)

input {
  stdin {}
  jdbc {
	# Mysql依赖包路径
    jdbc_driver_library => "D:\logstash-6.4.2\bin\mysql\mysql-connector-java-5.1.48.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
	#数据库连接地址
    jdbc_connection_string => "jdbc:mysql://数据库ip:port/表名?characterEncoding=UTF-8&autoReconnect=true"
	# 数据库连接账号密码
    jdbc_user => ""
    jdbc_password => ""
	# 数据库连接尝试数
	connection_retry_attempts => "3"
	# 判断数据库连接是否可用,默认false不开启
	jdbc_validate_connection => "true"
	# 数据库连接可用校验超时时间,默认3600S
	jdbc_validation_timeout => "3600"
	# 开启分页查询,默认false不开启
    jdbc_paging_enabled => "true"
	# 单次分页查询条数(默认100000,若字段较多且更新频率较高,建议调低此值)
    jdbc_page_size => "1000"
	# sql查询语句,sql语句复杂的时候可以通过statement_filepath字段指定sql语句存放的文件路径
    statement => 'select * from fb_ads'
	# 是否将字段名转换为小写,默认true(如果有数据序列化、反序列化需求,建议改为false);
	lowercase_column_names => false
	# 设置sql查询日志等级
	sql_log_level => warn
	# 是否记录上次执行结果,true表示会将上次执行结果的tracking_column字段的值保存到last_run_metadata_path指定的文件中;
	record_last_run => true
	# 需要记录查询结果某字段的值时,此字段为true,否则默认tracking_column为timestamp的值;
	use_column_value => true
	# 需要记录的字段,用于增量同步,需是数据库字段
	tracking_column => "spider_date"
	# 记录追踪字段类型,ModifyTime时间戳形式,numeric为整数类型
	tracking_column_type => numeric
	# record_last_run上次数据存放位置;
	last_run_metadata_path => "mysql/last_id.txt"
	# 是否清除last_run_metadata_path的记录,需要增量同步时此字段必须为false;
	clean_run => false
	# 同步频率(分 时 天 月 年),默认每分钟同步一次;
	schedule => "* * * * *"
  }
}

output {
    elasticsearch {
		# 索引名字,必须小写
        index => "shopify"
		# ES集群地址,列["192.168.1.1:9200", "192.168.1.2:9200", "192.168.1.3:9200"]
        hosts => "localhost:9200"
		# 数据唯一索引(建议使用数据库KeyID)
        document_id => "%{id}"
		# 为elasticsearc设置映射关系,template_name为表明,template为mapping配置文件的路径
		template_name => "fb_ads"
		template_overwrite => true
		template => "/usr/local/logstash-6.4.2/template/fb_ads.json"
    }
    stdout {
        codec => json_lines
    }
}

(3)上面讲的配置文件适合单张表导入,如果我们要同时导入多张表怎么办,那么今天他来了

input {
  stdin {}
  jdbc {
	 type => "fb_ads"
   	 jdbc_driver_library => "/usr/local/logstash-6.4.2/bin/mysql/mysql-connector-java-5.1.48.jar"
   	 jdbc_driver_class => "com.mysql.jdbc.Driver"
   	 jdbc_connection_string => "jdbc:mysql://数据库ip:port/表名?characterEncoding=UTF-8&autoReconnect=true"
   	 jdbc_user => ""
   	 jdbc_password => ""
	 connection_retry_attempts => "3"
	 jdbc_validate_connection => "true"
	 jdbc_validation_timeout => "3600"
   	 jdbc_paging_enabled => "true"
   	 jdbc_page_size => "500"
	 jdbc_default_timezone =>"Asia/Shanghai"
   	 statement => 'select * from fb_ads where update_time>= :sql_last_value'
	 lowercase_column_names => false
	 sql_log_level => warn
	 record_last_run => true
	 use_column_value => true
	 tracking_column => "update_time"
	 tracking_column_type => numeric
	 last_run_metadata_path => "/usr/local/logstash-6.4.2/bin/mysql/fb_ads_last_id.txt"
	 clean_run => false
	 schedule => "* * * * *"
  }	
    jdbc {
	 type => "fb_homepage"
   	 jdbc_driver_library => "/usr/local/logstash-6.4.2/bin/mysql/mysql-connector-java-5.1.48.jar"
   	 jdbc_driver_class => "com.mysql.jdbc.Driver"
   	 jdbc_connection_string => "jdbc:mysql://数据库ip:port/表命?characterEncoding=UTF-8&autoReconnect=true"
   	 jdbc_user => ""
   	 jdbc_password => ""
	 connection_retry_attempts => "3"
	 jdbc_validate_connection => "true"
	 jdbc_validation_timeout => "3600"
   	 jdbc_paging_enabled => "true"
   	 jdbc_page_size => "500"
	 jdbc_default_timezone =>"Asia/Shanghai"
   	 statement => 'select * from fb_homepage where update_stamp>= :sql_last_value'
	 lowercase_column_names => false
	 sql_log_level => warn
	 record_last_run => true
	 use_column_value => true
	 tracking_column => "update_stamp"
	 tracking_column_type => numeric
	 last_run_metadata_path => "/usr/local/logstash-6.4.2/bin/mysql/fb_homepage_last_id.txt"
	 clean_run => false
	 schedule => "* * * * *"
  }	
}

output {
	if [type] == "fb_ads"{
		elasticsearch {
			index => "fb_ads"
			hosts => "ip:9200"
			document_id => "%{id}"
			template_name => "fb_ads"
			template_overwrite => true
			template => "/usr/local/logstash-6.4.2/template/fb_ads.json"
		}
	}
	if [type] == "fb_homepage"{
		elasticsearch {
			index => "fb_homepage"
			hosts => "ip:9200"
			document_id => "%{id}"
			template_name => "fb_homepage"
			template_overwrite => true
			template => "/usr/local/logstash-6.4.2/template/fb_homepage.json"
		}
	}
    stdout {
        codec => json_lines
    }
}

多张表导入的逻辑与单张表导入差不多,最后在输出的地方加上判断即可。

3.启动

进入logstash的bin目录运行:./logstash -f ./mysql/jdbc.conf,如果想要后台运行的话:nohup ./logstash -f ./mysql/jdbc.conf &

4.性能

(1)如果第一次进行数据导入的时候可能因为数据量较大导致mysql性能下降,这是我们需要将数据按照区间划分进行多次导入。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值