flume系统架构

目前我们使用的flume主要有三种类型:kafka→kafka、kafka→hdfs、kafka→hbase

没有特殊说明每套均部署了5台机器:10.200.1.52、10.200.1.53、10.200.1.54、10.200.1.55、10.200.1.56

目前线上使用的版本是1.9.0,为Flume最新版本。

1、kafka→kafka

目前行为上报数据是上报到两个机房的kafka集群的,所以单独一个机房的数据并不完整,

我们目前是把铜牛机房kafka集群的数据通过flume同步至马驹桥kafka集群,然后再落盘。
在这里插入图片描述
配置文件:kafka_flume_kafka_agent.conf

2、kafka→hdfs

目前我们部署了两套写hdfs的flume,行为上报和ETL共用一套,实时同步单独一套,

因为实时同步数据格式与其他的不一致,所以开发了一个新的拦截器,启用了新的

一套flume单独为实时同步服务。两套flume输出都是parquet文件,此服务的parquet-sink

是我们自己定制开发的,flume官方未提供写parquet的sink。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值