- 实时数仓中,为什么没有零点漂移问题?
- 因为flink直接取的事件时间
- 用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
- 因为需要削峰填谷
- 离线数仓中,为什么用两个flume,一个kafka,直接用taildirsource,kafkachannel,hdfssink不行吗?
- 不行
- kafka可以削峰填谷
- 如果用kafkachannel,那么数据写到kafka,只剩event,没有header,无法解决零点漂移问题,而多加一个flume,可以在kafkasource中添加拦截器。
离线数仓中,为什么用两个flume,一个kafka
最新推荐文章于 2024-07-06 02:09:50 发布
文章讨论了在实时数仓中,为何Flink采用KafkaChannel和直接使用Kafka的原因,以及在离线数仓中为何需要Flume额外处理,以确保数据完整性和解决零点漂移问题。KafkaChannel的问题在于它不包含header,而Flume的介入有助于添加必要信息。
1071

被折叠的 条评论
为什么被折叠?



