目前我们使用的flume主要有三种类型:kafka→kafka、kafka→hdfs、kafka→hbase
没有特殊说明每套均部署了5台机器:10.200.1.52、10.200.1.53、10.200.1.54、10.200.1.55、10.200.1.56
目前线上使用的版本是1.9.0,为Flume最新版本。
1、kafka→kafka
目前行为上报数据是上报到两个机房的kafka集群的,所以单独一个机房的数据并不完整,
我们目前是把铜牛机房kafka集群的数据通过flume同步至马驹桥kafka集群,然后再落盘。
配置文件:kafka_flume_kafka_agent.conf
2、kafka→hdfs
目前我们部署了两套写hdfs的flume,行为上报和ETL共用一套,实时同步单独一套,
因为实时同步数据格式与其他的不一致,所以开发了一个新的拦截器,启用了新的
一套flume单独为实时同步服务。两套flume输出都是parquet文件,此服务的parquet-sink
是我们自己定制开发的,flume官方未提供写parquet的sink。