缘起:
既然hadoop用了,然后由于项目目前不是分布式,而是集群环境,导致业务日志每次都需要batch来移,然后再通过hadoop进行分析。
既然如此,不如上一个分布式flume来配合现成的HDFS进行处理,避免了多余的操作。
预备环境:
你必须有现成能用的Hadoop版本。我的版本是2.7.3.如果不知道怎么安装可以参考我的库中文章
【hadoop】跟着网络上各种攻略来进行CentOS7安装今天中午20160826出的Hadoop2.7.3以及各种爬坑经验
OS环境:
目前我使用的是CentOS,如果是ubantu的也可以做一部分参考。
其实安装都比较简单,难点还是在配置上。
安装步骤
A:去apache官方下载:flume最新稳定版本
然后在虚拟机中解压。当然你也可以直接wget下载。