通过hive进行日志分析,因时间关系分几部分发布,以下为不使用format类的最基本情况:
1、日志收集,使用logstash或者flume均可,得到汇总后的日志文件。
例如:upp.log.2014-01-27.log,保存在服务器/export/logs目录
2、安装部署hadoop,具体请看http://blog.csdn.net/u013696226/article/details/19415037
3、安装hive,解压缩hive-0.12.0-bin.tar.gz,修改配置文件
进入conf后:
cp hive-env.sh.template hive-env.sh
cp hive-default.xml.template hive-default.xml
vi hive-env.conf 修改HADOOP_HOME=/usr/hadoop-1.2.1
4、将日志文件存放到hdfs,进入hadoop/bin目录,执行如下指令
建立hdfs目录:./hadoop fs -mkdir /upp
将日志文件读入hdfs:./hadoop fs -put /export/logs/upp.log.2014-01-27.log /upp
查看文件:./hadoop fs -ls /upp
显示如下则成功:-rw-r--r-- 2 root supergroup 1204106 2014-03-04 14:50 /upp/upp.log.2014-01-27.log