点击上方蓝字关注
【写在前面】:前段时间因为项目需要,使用了一段时间的kylin进行多维数据分析。从kylin单机/分布式部署、事实表维度表设计、再到cube优化和调度等全都亲手实操了一遍。过程中的所得,想通过文章来记录一下。
start
01
Kylin安装前准备
如果想在自己的本机上安装kylin,那么做一些前置软件的安装是必不可少的。我在项目生产环境安装之前,都是在本机虚拟机上先进行安装测试,先踩踩坑,才能更好地知道一些注意点。下面罗列一下需要安装的软件列表(以我安装的软件版本为例):
VmwareWork_V12.5.7.rar
CentOS-6.8-x86_64-bin-DVD.iso
Xshell-6.0.0193p.exe
Xftp-6.0.0187p.exe
jdk-8u231-linux-x64.tar.gz
hadoop-2.6.0-cdh5.9.3.tar.gz
hive-1.1.0-cdh5.9.3.tar.gz
MySQL-server-5.1.73-1.glibc23.x86_64.rpm
MySQL-client-5.1.73-1.glibc23.x86_64.rpm
hbase-1.2.0-cdh5.9.3.tar.gz
zookeeper-3.4.5-cdh5.9.3.tar.gz
将上述的压缩包安装完毕后,环境的准备工作就差不多了,具体的各个安装教程我想在后续有空的时候慢慢补充上来。如果有小伙伴也想实践,可以搜索下方链接进行下载,网络上有很多教程,我觉得安装问题都不大。
https://archive.cloudera.com/cdh5/cdh/5/
02
Kylin单机部署虚拟机的环境准备完成以后,正式进入安装阶段啦~
对了,安装的kylin版本是:apache-kylin-3.0.0-bin-cdh57.tar.gz,直接在kylin的官网上下载即可。官网上有很多教程和使用说明,可以先看看官网的介绍再来看下面的内容可能会更好。
2.1 安装步骤1)执行如下安装命令:
## -C 后面的参数是想要安装在哪个文件夹路径,可以自己先行创建
tar -zxvf apache-kylin-3.0.0-bin-cdh57.tar.gz -C /hadoop1/
2)解压完成后,去修改配置文件:
## (1)添加环境变量
vi /etc/profile
##(2)打开后,复制如下的代码到profile中
#----------------------------------------------------------------
## JAVA_HOME
export JAVA_HOME=/hadoop1/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
## HADOOP_HOME
export HADOOP_HOME=/hadoop1/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
## HIVE_HOME
export HIVE_HOME=/hadoop1/hive-1.1.0-cdh5.9.3
export PATH=$PATH:$HIVE_HOME/bin
## HBASE_HOME
export HBASE_HOME=/hadoop1/hbase-1.2.0-cdh5.9.3
export PATH=$PATH:$HBASE_HOME/bin
## HCAT_HOME
export HCAT_HOME=/hadoop1/hive-1.1.0-cdh5.9.3/hcatalog/share/hcatalog
## KYLIN_HOME
export KYLIN_HOME=/hadoop1/apache-kylin-3.0.0-bin-cdh57
export PATH=$PATH:$KYLIN_HOME/bin
#----------------------------------------------------------------
## (3)wq保存退出后,别忘记生效配置
source /etc/profile
3)切换到kylin安装目录,去conf文件夹中修改kylin.properties:
## 修改的第1处,其中IP:192.168.140.134要替换成自己的虚拟机IP
kylin.server.cluster-servers=192.168.140.134:7070
## 修改的第2处
kylin.server.mode=all
## 修改的第3处
kylin.web.timezone=GMT+8
## 接着复制添加如下内容,其中IP:192.168.140.134要替换成自己的虚拟机IP
kylin.job.jar=/hadoop1/apache-kylin-3.0.0-bin-cdh57/lib/kylin-job-3.0.0.jar
kylin.coprocessor.local.jar=/hadoop1/apache-kylin-3.0.0-bin-cdh57/lib/kylin-coprocessor-3.0.0.jar
kylin.job.yarn.app.rest.check.status.url=http://192.168.140.134:8088/ws/v1/cluster/apps/${job_id}?anonymous=true
4)接着修改bin目录下的kylin.sh:因为没有安装kafka和saprk,所以注释掉这两个的依赖检查,如下:
## 仅截取其中的部分代码
function retrieveDependency() {
#retrive $hive_dependency and $hbase_dependency
if [[ -z $reload_dependency && `ls -1 ${dir}/cached-* 2>/dev/null | wc -l` -eq 5 ]]
then
echo "Using cached dependency..."
source ${dir}/cached-hive-dependency.sh
source ${dir}/cached-hbase-dependency.sh
source ${dir}/cached-hadoop-conf-dir.sh
#source ${dir}/cached-kafka-dependency.sh
#source ${dir}/cached-spark-dependency.sh
else
source ${dir}/find-hive-dependency.sh
source ${dir}/find-hbase-dependency.sh
source ${dir}/find-hadoop-conf-dir.sh
#source ${dir}/find-kafka-dependency.sh
#source ${dir}/find-spark-dependency.sh
fi
5)接着将hbase中的hbase-site.xml复制一份到kylin的conf下,并且去掉2181端口号,只留主机名,如下图所示:
1)修改完配置文件以后,进行kylin的启动和测试。
## 使用如下启动命令集群和kylin
/hadoop1/hadoop-2.6.0/sbin/start-dfs.sh
/hadoop1/hadoop-2.6.0/sbin/mr-jobhistory-daemon.sh start historyserver
/hadoop1/hadoop-2.6.0/sbin/start-yarn.sh
/hadoop1/zookeeper-3.4.5-cdh5.10.0/sbin/zkServer.sh start
/hadoop1/hbase-1.2.0-cdh5.9.3/bin/start-hbase.sh
/hadoop1/apache-kylin-3.0.0-bin-cdh57/bin/kylin.sh start
hive --service metastore &
2)打开浏览器,输入主机:7070/kylin,即可出现如下登录页面:
输入账号和密码ADMIN, KYLIN就可以使用官方自带的例子进行测试啦。更详细的测试过程我想放在后面写基于生产环境的单机/分布式kyin部署时再来记录。如果有相同兴趣的小伙伴可以借鉴并亲手实践一下,文中也可能写的不那么详细,也可能有没注意的错误,都欢迎大家批评指正和交流!
end