增量采集:通过Maxwell从MySQL采集变化的数据,存储到kafka通过flume从kafka采集到HDFS,以日期命名目录这样的话,如果MySQL的数据频繁变化,那么会在HDFS中,产生很多小文件解决办法:在flume的sink中,可以设置每1000条写一个文件,在没达到1000条数据时,文件以.tmp结尾,达到了,去掉.tmp,以.gz结尾。同理,也可以设置时间,大小