离线数仓全面复习(1)

本文详细介绍了离线数仓中的Flume和Kafka的配置与优化。Flume使用taildirsource监控文件,通过etl和分类拦截器处理数据,选择多路复用选择器发送到Kafka不同topic。Kafka设置了3个broker和5个分区,并调整了数据保存时间和副本数。针对可能出现的数据丢失、重复和积压问题,提出了相应的解决方案。在HDFS层面,针对小文件问题,采用har归档和combinerInputFormat优化。
摘要由CSDN通过智能技术生成

1.集群规模:12台物理集,128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多1台(重要,吹牛)
2.第一个Flume:

1.tailsource:实时监控多个文件且有断点续传的功能**(文件具体怎么写的?**)
2.filechannel:基于磁盘,io多,性能差,但是可靠性高。
memorychannel:基于内存,性能高,但是可靠性低,存在丢失数据的风险。
kafkachannel:基于磁盘,可靠性高,性能还优于memorychannel+kafkasink
3.kafkachannel直接将数据发送到kafka,没有使用sink。
4.拦截器:使用了etl拦截器,过滤掉不完整的json数据,同时使用了分类拦截器,把日志分为了5类数据,启动、页面、动作、曝光、错误数据,通过给event的header加上对应的标签(这里什么意思?),后面配合多路复用的选择器,指定不同类型的数据去到不同的topic中。(可以加强)
定义拦截器的步骤:1.自定义一个类,实现interceptor,实现4个抽象方法:初始化,关闭资源,单个event和多个event方法,2.创建一个内部类实现builder类,实现两个抽象方法。3.打包上传到flume的lib包下,在配置文件中添加拦截器,写上全类名$build类(不熟)
5.选择器:两种,一种是replicating,默认选择器,每一个通道发送

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值