kylin 专有的概念

最新推荐文章于 2021-11-05 15:12:09 发布

zhiliang-chen

最新推荐文章于 2021-11-05 15:12:09 发布

阅读量274

点赞数

分类专栏： # Kylin 大数据运维文章标签： kylin 概念

原文链接：http://kylin.apache.org/docs/gettingstarted/concepts.html

版权

16 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

Table: 作为cubes源的hive表;在构建cubes前要先sync
Data Model: 描述星型模式数据模型;定义fact/lookup表和过滤条件
Cube Descriptor: cube实例的定义和设置;定义使用的model,要包含的dimensions和measures,如何分区segments和处理自动合并等;
Cube Instance: cube实例;从Cube Descriptor构建,包含一个或多个cube segments;
Partition: 可以在Cube Descriptor定义DATE/STRING类型的字段作为分区字段,将一个cube分区为几个带有日期区间的segments
Cube Segment: cube数据的实际载体,对应为HBase的HTable;cube实例的一次构建任务创建一个新的segment;如果某个日期区间的数据改变了,可以刷新相应的segments,而不用重新构建整个cube;
Aggregation Group: 一个聚合组是dimensions的子集,在此内部组合构建cuboid;此项是为了优化时裁剪;

Mandotary: 这个维度类型用于cuboid裁剪,如果一个维度定义为"必要的(mandatory)",没有包信这个维度的维度组合会被裁剪;
Hierarchy: 这个维度类型用于cuboid裁剪,如果维度A,B,C有"层级(hierarchy)"关系,维度组合只保留A,AB或ABC
Derived: 在lookup表集中,一些维度集可能是从它的PK(主键)产生的,所以在它们和fact表的FK(外键)有特定的对应关系;而这些维度就是"衍生的(DERIVED)",可以不用参于cuboid的生成;
Count Distinct(HyperLogLog): 立即的COUNT DISTINCT很难计算,引入近似算法HyperLogLog,并将错误率保存在较低水平;
Count Distinct(Precise): 精确的COUNT DISTINCT预计算,是基于RoaringBitmap的,当前只支持INT或BIGINT;
Top N: 预计算top N

http://kylin.apache.org/docs/gettingstarted/concepts.htmlkylin 专有的概念

Table: 作为cubes源的hive表;在构建cubes前要先sync
Data Model: 描述星型模式数据模型;定义fact/lookup表和过滤条件
Cube Descriptor: cube实例的定义和设置;定义使用的model,要包含的dimensions和measures,如何分区segments和处理自动合并等;
Cube Instance: cube实例;从Cube Descriptor构建,包含一个或多个cube segments;
Partition: 可以在Cube Descriptor定义DATE/STRING类型的字段作为分区字段,将一个cube分区为几个带有日期区间的segments
Cube Segment: cube数据的实际载体,对应为HBase的HTable;cube实例的一次构建任务创建一个新的segment;如果某个日期区间的数据改变了,可以刷新相应的segments,而不用重新构建整个cube;
Aggregation Group: 一个聚合组是dimensions的子集,在此内部组合构建cuboid;此项是为了优化时裁剪;

Mandotary: 这个维度类型用于cuboid裁剪,如果一个维度定义为"必要的(mandatory)",没有包信这个维度的维度组合会被裁剪;
Hierarchy: 这个维度类型用于cuboid裁剪,如果维度A,B,C有"层级(hierarchy)"关系,维度组合只保留A,AB或ABC
Derived: 在lookup表集中,一些维度集可能是从它的PK(主键)产生的,所以在它们和fact表的FK(外键)有特定的对应关系;而这些维度就是"衍生的(DERIVED)",可以不用参于cuboid的生成;
Count Distinct(HyperLogLog): 立即的COUNT DISTINCT很难计算,引入近似算法HyperLogLog,并将错误率保存在较低水平;
Count Distinct(Precise): 精确的COUNT DISTINCT预计算,是基于RoaringBitmap的,当前只支持INT或BIGINT;
Top N: 预计算top N

关注

专栏目录