
Flume数据采集(行为日志数据)
用日志文件使用一个脚本来生成存放在集群某一个节点,由于Flume是一个单点操作,故需要在该节点配置日志采集Flume。且采集到的日志进行JSON格式校验,然后将通过校验的JSON日志发送到kafka。Flume怎么校验?Source的类型选择?选择TailDirSource的原因,可以实现断点续传,**多目录多文件实时**监控?Channel的类型选择?选择kafkaChannel,省去了Sink,,提高了效率。kafka可以均衡速率,kafkachannel直接到kafka,不用sink。













