-
SSH登录CDH服务器
-
切换到hdfs账号:su - hdfs
-
执行导入命令:${KYLIN_HOME}/bin/sample.sh
-
导入成功,控制台输出如下:
[](()检查数据
- 检查数据,执行beeline进入会话模式(hive官方推荐用beeline取代Hive CLI):
- 在beeline会话模式输入链接URL:!connect jdbc:hive2://localhost:10000,按照提示输入账号hdfs,密码直接回车:
- 用命令show tables查看当前的hive表,已建好:
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020041 Java开源项目【ali1024.coding.net/public/P7/Java/git】 1141515814.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)
- 查出订单的最早和最晚时间,后面构建Cube的时候会用到,执行SQL:select min(PART_DT), max(PART_DT) from kylin_sales; ,可见最早2012-01-01,最晚2014-01-01,整个查询耗时18.87秒:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200411141600766.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,te 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》开源 xt_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JvbGluZ19jYXZhbHJ5,size_16,color_FFFFFF,t_70)
[](()构建Cube:
数据准备完成,可以构建Kylin Cube了:
-
登录Kylin网页:http://192.168.50.134:7070/kylin
-
加载Meta数据,如下图:
- 如下图红框所示,数据加载成功:
- 在Model页面可以看到事实表和维度表,如下图的操作可以创建一个MapReduce任务,计算维度表KYLIN_ACCOUNT每个列的基数(Cardinality):
- 去Yarn页面(CDH服务器的8088端口),如下图,可见有个MapReduce类型的任务正在执行中:
- 上述任务很快就能完成(10多秒),此时刷新Kylin页面,可见KYLIN_ACCOUNT表的Cardinality数据已经计算完成了(hive查询得到ACCOUNT_ID数量是10000,但下图的Cardinality值为10420,Kylin对Cardinality的计算采用的是HyperLogLog的近似算法,与精确值有误差,其他四个字段的Cardinality与Hive查询结果一致):
- 接下来开始构建Cube:
- 日期范围,刚才Hive查询结果是2012-01-01到2014-01-01,注意截止日期要超过2014-01-01:
- 在Monitor页面可见进度:
- 去Yarn页面(CDH服务器的8088端口),可以看到对应的任务和资源使用情况:
最后
我还为大家准备了一套体系化的架构师学习资料包以及BAT面试资料,供大家参考及学习
已经将知识体系整理好(源码,笔记,PPT,学习视频)
0)]
[外链图片转存中…(img-S11RojSa-1650433562181)]
[外链图片转存中…(img-ekmc0X4i-1650433562181)]