教程假定kylin系统已被负责运维的人员安装部署完成,使用kylin的人员无需关心系统的运行及配置问题。
工欲善其事,必先必知必会
- kylin设计原理,必知
- kylin概念术语,做到深刻理解,方便优化cube的构建
- 维度(Dimension)
- 维度基数
- 度量(Measure)
- Model
- Cube
- Cuboid
- Cube Segment
- 事实表(Fact Table)
- 维度表(Dimension Table)
- 衍生维度(Derived)
- 聚合组(Aggregation Group)
- 强制维度(Mandatory)
- 层级维度(Hierarchy)
- 联合维度(Joint)
- 维度值的编码方式
- cube的增量构建
- kylin概念术语,做到深刻理解,方便优化cube的构建
当然,想玩转kylin,只懂得上面的知识点,还是不行了,下面这些同样需要掌握:
- hive是什么,必知
- hive表的创建修改,必会
- hive视图概念,创建及修改,必会 https://blog.csdn.net/pzasdq/article/details/52920448
- hive的分区,必知
- hive支持的函数,可以去官网查看,常用函数必会,复杂函数尽量做到功能了解
- Hadoop Yarn 资源管理系统的资源调度原理,以及系统中有哪些角色,角色的职责,以及角色资源如何配置以便优化计算性能, 必知。参考:Hadoop YARN架构、YARN的内存和CPU配置、Spark on Yarn的运行原理、Spark配置参数
接下来的实战教程,我会详细讲解kylin的使用,争取能将上面提到的知识点是怎么体现在kylin的使用上的讲解清楚,结合实例,会对上面知识点有更好地理解。当然,前提是:一定要先了解以上列出的知识点。否则,再详细的案例也是天书,知其然都做不到,更不要提知其所以然。