flmue实时增量抽取mysql数据到kafka和hdfs

最新推荐文章于 2023-09-20 22:00:00 发布

戚xq

最新推荐文章于 2023-09-20 22:00:00 发布

阅读量1.8k

点赞数

分类专栏：数据采集文章标签： flume kafka mysql hdfs

本文链接：https://blog.csdn.net/qq_32461003/article/details/84950470

版权

数据采集专栏收录该内容

2 篇文章 0 订阅

订阅专栏

近期做实时的处理一部分数据，数据在mysql中，但实现方案为kafka+jstorm的方式处理，因此需要把mysql的数据先加载到kafka，同时需要把这份数据备份到hdfs中，因此就想到采用flume的方式，一个数据来源实现数据的多分分发；因此自己也花点时间把这个配置分享出来

flume简要描述：http://www.cnblogs.com/zhangyinhua/p/7803486.html

具体实现方式如下：

一,下载flume-ng-sql-source-1.4.1.jar,放入flume的lib目录下
链接：https://pan.baidu.com/s/1krRxL3vi1PcTqVN_pF3Pug 密码：fkod

二,将mysql驱动jar包放入flume的lib目录下(mysql5.5)
链接：https://pan.baidu.com/s/1sZv2b70mbBqcr4mrBLAbTQ 密码：cbxj

三,flume配置文件

a1.channels = ch-1 ch-2

a1.sources = src-1

a1.sinks = KAFKA HDFS

###########sql source#################

# For each one of the sources, the type is defined

a1.sources.src-1.type = org.keedio.flume.source.SQLSource

a1.sources.src-1.hibernate.connection.url = jdbc:mysql://10.1.40.104:3306/ibrain

# Hibernate Database connection properties

a1.sources.src-1.hibernate.connection.user = root

a1.sources.src-1.hibernate.connection.password = root

#这个参数很重要，默认false,如果设为false就不会自动查询

a1.sources.src-1.hibernate.connection.autocommit = true

#声明mysql的hibernate方言

a1.sources.src-1.hibernate.dialect = org.hibernate.dialect.MySQL5Dialect

#声明mysql驱动

a1.sources.src-1.hibernate.connection.driver_class = com.mysql.jdbc.Driver

#查询间隔，单位毫秒

a1.sources.src-1.run.query.delay=5000

a1.sources.src-1.hibernate.columns.to.select = *

#表里面的某个字段，用来判断增量

a1.sources.src-1.hibernate.incremental.column.name =submit_time

#声明保存flume状态的文件夹位置

a1.sources.src-1.status.file.path = /opt/

a1.sources.src-1.status.file.name = syncDataToHdfsAndKafka.status

#声明从第一条数据开始查询

a1.sources.src-1.start.from = 2012-07-28 00:00:0.0000000

#sql语句自定义,但是要注意:增量只能针对查询字段的第一个字段，如下面的SUBMIT_TIME,经测试系统默认如此.

#$@$表示增量列上一次查询的值，记录在status文件中

#查询sql不能加";",不然会报错

a1.sources.src-1.custom.query = select SUBMIT_TIME,ID,ENTRANCE_GUARD_ID,ENTRANCE_GUARD_TYPE,ENTRANCE_GUARD_STATUS,ID_CARD,NAME,EXAM_SITE_ID,FACE_IDENTIFY_RESULT,FACE_IDENTIFY_MESSAGE,FACE_BASE64,ENTRY_TYPE from T_ZCKJ_MJ_MJSJ where SUBMIT_TIME > to_timestamp('$@$','yyyy-mm-dd hh24:mi:ss.ff6')

#设置分批参数

a1.sources.src-1.batch.size = 1000

a1.sources.src-1.max.rows = 1000

#设置c3p0连接池参数

a1.sources.src-1.hibernate.connection.provider_class = org.hibernate.connection.C3P0ConnectionProvider

a1.sources.src-1.hibernate.c3p0.min_size=1

a1.sources.src-1.hibernate.c3p0.max_size=10

######数据通道定义##########

#数据量不大，直接放内存。其实还可以放在JDBC，kafka或者磁盘文件等

a1.channels.ch-1.type = memory

# 通道队列的最大长度

a1.channels.ch-1.capacity = 1000

# putList和takeList队列的最大长度，sink从capacity中抓取batchsize个event，放到这个队列。所以此参数最好比capacity小，比sink的batchsize大。 # 官方定义：The maximum number of events the channel will take from a source or give to a sink per transaction.

a1.channels.ch-1.transactionCapacity = 1000

a1.channels.ch-1.byteCapacityBufferPercentage = 20

#默认值的默认值等于JVM可用的最大内存的80%，可以不配置

a1.channels.ch-1.byteCapacity = 68435456

a1.channels.ch-1.keep-alive = 60

a1.channels.ch-1.capacity = 1000000

a1.channels.ch-2.type = memory

a1.channels.ch-2.capacity = 1000

a1.channels.ch-2.transactionCapacity = 1000

a1.channels.ch-2.byteCapacityBufferPercentage = 20

a1.channels.ch-2.byteCapacity = 68435456

a1.channels.ch-2.keep-alive = 60