1.配置Hadoop环境,3台linux机器,一台namenode,其余datanode,配置文件最好抽取出来单独配置,这样在升级版本时不需修改配置文件。

 
2.在namenode 机器上配置hive,下载,环境变量,OK。
3.日志分析
    3.1 datafactory生成测试数据,几百万几千万设置好字段随便生成,如果等得起生成个几亿条数据也行,导成文本文件(伪日志)
    3.2 hive下各种建表,load数据,测试没问题,hive --service hiveserver,启动thrift服务器,供客户端调用
    3.3 随便找台机子,什么系统无所谓,打开eclipse写个客户端测试,主要就是sql 语句的各种stmt.executeQuery
4.分析结束,如果再次遇到各种问题,记得回头看看收藏夹和日志。

5. 开始日志分析的hadoop-pig实现……