tableau为一个数据分析软件,其优势是分析数据表中的数据,效果比较好。从简介中说到可以对日志也可以进行分析。于是我们用来做日志分析,主要是分为以下的几个步骤:
一、Hortonworks Hadoop Hive服务器的搭建
在分析日志的时候需要的是对日志实时的分析,我们将源数据存储在s3服务器上,设计的思路是只能从s3上get过来之后,然后导入到所要使用的数据库中,然后实时的更新到tableau的客户端上面。
tableau商家没有给出服务器去怎么搭建,这一部分折腾了很久。刚开始用的是hadoop1.2.1 和 hive1.2.1进行搭建,最后的结果过是在客户端可以连接上服务器。这里主要使用的hiveserver2数据库,链接的时候使用beeline进行链接,链接之后不hiveserver2中不能建表,提示有个版本太低,like this:
在折腾了很久之后,开始升级了hadoop的版本,将hadoop的版本升级到2.6.4,终于是可以正常的进行建库建表了。需要记住以下的几个命令
后台运行hiveserver2: /xxx/xxx/hive/bin/hiveserver2 &
客户端登陆hiveserver2: /xxx/xxx/hive/bin/beeline
链接库: beeline>!connect jdbc:hive2://127.0.0.1:10000 hadoop
二、服务器搭建完成后,需要hiveserver2自动的把数据加载进去
我这里是先将s3的日志获取到本地,利用shell直接能登陆并且导入数据到hiveserver2的命令 like this:
tar -zxvf $ACTIVE_END_LOG_GZ
sleep 1
rm -rf $ruifenglog$ACTIVE_END_LOG_GZ
/data/hive/bin/beeline -u jdbc:hive2://localhost:10000/ruifengapplog << EOF
LOAD DATA LOCAL INPATH '$ruifenglog$ACTIVE_END_LOG_FILE' overwrite into table ruifengapplog.wrf_all_log PARTITION(dt='$dateYMDS',hour='$dateCHOUR');
EOF
这句就可以搞定把数据直接load到hiveserver2对应的数据表中去,然后将当前的操作直接写成定时的操作。
三、客户端公式规则的使用。
这部分只是实现了一部分,不懂得话看官网的文档和视频就应该能搞定。