flume采集数据输出到kafka还是hdfs

主要由以下四点区别

1、实时性:hdfs的实时性没有kafka高。

2、消费量的记录:hdfs不会记录你这个块文件消费到了哪里,而基于zookeeper的kafka会记录你消费的点。

3、并发消费:hdfs不支持并发消费,而kafka支持并发消费,即多个consumer.

4、弹性且有序:当数据量会很大,而且处理完之后就可以删除时,频繁的读写会对hdfs中NameNode造成很大的压力。而kafka的消费点是记录在zookeeper的,并且kafka的每条数据都是有“坐标”的,所以消费的时候只要这个“坐标”向后移动就行了,而且删除的时候只要把这个“坐标”之前的数据删掉即可。

展开阅读全文

没有更多推荐了,返回首页