离线数仓中的同步策略、Flume、Kafka

最新推荐文章于 2024-03-08 16:42:08 发布

养不起心爱的猫该如何是好

最新推荐文章于 2024-03-08 16:42:08 发布

阅读量1.4k

点赞数 1

分类专栏：尚硅谷实时数仓文章标签： kafka flume big data

本文链接：https://blog.csdn.net/qq_46045632/article/details/122277791

版权

尚硅谷实时数仓专栏收录该内容

25 篇文章 14 订阅

订阅专栏

离线数仓当中Sqoop采集MySQL中数据同步策略有：增量全量新增及变化特殊；Sqoop怎么处理？
where判断日期：新增：where 创建时间 = 当天；全量：where 1 = 1；新增及变化：创建时间 or 修改时间等于今天；特殊只导入一次

Flume
TailDirSource：
优点：断点续传，监控多目录多文件，实时监控
缺点：当文件更名之后会更新读取该文件造成重复
注意：
1.要使用不更名打印日志框架（例如：logback）
hive.log-2022-01-02
hive.log-2022-02-03(log4j)日志名会滚动更新
2.修改源码，让TailDirSource判断文件时只看iNode值

KafkaChannel：
优点：将数据写入Kafka，省去一层sink
KafkaChannel：既可以时生产者也可以是消费者
用法：
1.Source-KafkaChannel-Sink
2.Source-KafkChannel（将数据写入Kafka）
3.KafkaChannel-Sink（将Kafka数据写入Sink）

Flume中的HDFSSink如何防止产生过多小文件？
可以按照时间，事件，文件大小滚动文件，同时可以启动文件压缩

Kafka学习线分析：
Producer：
发送流程、ACK、拦截器、序列化器、分区器、sender与main线程、幂等性、事务
分区规则：
有指定分区发往指定分区、没有指定分区根据key值Hash、既没有指定分区也没有Key的时候整体采用轮询规则（很小一段时间内采用粘性分区）

Broker
Topic：
副本：高可用、LEO、HW
分区：站在读和写角度有利于高并发、站在集群角度负载均衡防止热点

Consumer
分区分配规则
offset保存，默认保存在_consumer_offsets主题；其他：手动维护Offset(保存在Mysql)保存数据&保存offset写到一个事务做到精准一次消费
先保存数据后保存offset会导致重复数据（下游可以具有幂等性 + 去重达到精准一次消费）
先保存offset后保存数据会导致丢失数据

养不起心爱的猫该如何是好

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
离线数仓中的同步策略、Flume、Kafka

离线数仓当中Sqoop采集MySQL中数据同步策略有：增量全量新增及变化特殊；Sqoop怎么处理？where判断日期：新增：where 创建时间 = 当天；全量：where 1 = 1；新增及变化：创建时间 or 修改时间等于今天；特殊只导入一次FlumeTailDirSource：优点：断点续传，监控多目录多文件，实时监控缺点：当文件更名之后会更新读取该文件造成重复注意：1.要使用不更名打印日志框架（例如：logback）hive.log-2022-01-02hive.log-2022-
复制链接

扫一扫