实时数仓与离线数仓架构对比、Flink消费流程
实时数仓架构图:与离线数仓区别:MySQL业务数据采集改用FlinkCDC;FlinkCDC与Maxwell处理方式和Cannal一样通过监控binlog方式(行级别),而Sqoop是通过MR方式处理数据,这种方式太慢日志数据,离线数仓采用的是Taildir Source监控落盘的多个文件采集数据,并通过Kafka Channel写入Kafka,而实时架构直接将日志数据收集到Kafka,减少了磁盘IO速度也更快了,缺点就是耦合性高,日志服务器和Kafka关联性太大,例如Kafka发生了问题会影响到
复制链接