选择Flume+kafka主要是基于我们的数据特性和处理需求。用户行为日志数据往往需要实时采集和处理,而Flume+Kafka在处理实时数据流方面具有明显的优势。Kafka的高吞吐量和可靠性能够保证我们可以可以及时,高效的收集和采集大量的日志数据。同时,Kafka的持久化特性也使数据传输更加可靠。
相比之下,Data X 更适合结构化数据的批量同步任务,我们通常用它来做每日全量数据的迁移和同步。DataX 配置简单,适合快速实施批量数据同步任务,但是在处理实时日志数据时,Flume+Kafka的实时性和拓展性更符合我们的需求。