kylin 专有的概念

CUBE
  • Table: 作为cubes源的hive表;在构建cubes前要先sync
  • Data Model: 描述星型模式数据模型;定义fact/lookup表和过滤条件
  • Cube Descriptor: cube实例的定义和设置;定义使用的model,要包含的dimensions和measures,如何分区segments和处理自动合并等;
  • Cube Instance: cube实例;从Cube Descriptor构建,包含一个或多个cube segments;
  • Partition: 可以在Cube Descriptor定义DATE/STRING类型的字段作为分区字段,将一个cube分区为几个带有日期区间的segments
  • Cube Segment: cube数据的实际载体,对应为HBase的HTable;cube实例的一次构建任务创建一个新的segment;如果某个日期区间的数据改变了,可以刷新相应的segments,而不用重新构建整个cube;
  • Aggregation Group: 一个聚合组是dimensions的子集,在此内部组合构建cuboid;此项是为了优化时裁剪;
DIMENSION & MEASURE
  • Mandotary: 这个维度类型用于cuboid裁剪,如果一个维度定义为"必要的(mandatory)",没有包信这个维度的维度组合会被裁剪;
  • Hierarchy: 这个维度类型用于cuboid裁剪,如果维度A,B,C有"层级(hierarchy)"关系,维度组合只保留A,AB或ABC
  • Derived: 在lookup表集中,一些维度集可能是从它的PK(主键)产生的,所以在它们和fact表的FK(外键)有特定的对应关系;而这些维度就是"衍生的(DERIVED)",可以不用参于cuboid的生成;
  • Count Distinct(HyperLogLog): 立即的COUNT DISTINCT很难计算,引入近似算法HyperLogLog,并将错误率保存在较低水平;
  • Count Distinct(Precise): 精确的COUNT DISTINCT预计算,是基于RoaringBitmap的,当前只支持INT或BIGINT;
  • Top N: 预计算top N
CUBE ACTIONS
  • BUILD: 给定分区字段的区间,这个动作会构建新的cube segment
  • REFRESH: 这个动作会根据分区区间重新构建cube segment,用于源表数据的增长;
  • MERGE: 将多个连续的cube segments合并;可以在cube descriptor里定义自动合并设置;
  • PURGE: 清空cube实例的segments;这只会更新元信息,不会删除HBase上的cube数据;
JOB STATUS
  • NEW: 一个任务被创建了
  • PENDING: 任务计划暂停了一个任务,等待资源;
  • RUNNING: 任务在运行
  • FINISHED: 任务完成
  • ERROR: 任务因错误退出
  • DISCARDED: 用户中止了任务;
JOB ACTION
  • RESUME: 从最新的成功点开始,重试ERROR状态的任务
  • DISCARD: 用户中止任务,翻译资源;

http://kylin.apache.org/docs/gettingstarted/concepts.htmlkylin 专有的概念

CUBE
  • Table: 作为cubes源的hive表;在构建cubes前要先sync
  • Data Model: 描述星型模式数据模型;定义fact/lookup表和过滤条件
  • Cube Descriptor: cube实例的定义和设置;定义使用的model,要包含的dimensions和measures,如何分区segments和处理自动合并等;
  • Cube Instance: cube实例;从Cube Descriptor构建,包含一个或多个cube segments;
  • Partition: 可以在Cube Descriptor定义DATE/STRING类型的字段作为分区字段,将一个cube分区为几个带有日期区间的segments
  • Cube Segment: cube数据的实际载体,对应为HBase的HTable;cube实例的一次构建任务创建一个新的segment;如果某个日期区间的数据改变了,可以刷新相应的segments,而不用重新构建整个cube;
  • Aggregation Group: 一个聚合组是dimensions的子集,在此内部组合构建cuboid;此项是为了优化时裁剪;
DIMENSION & MEASURE
  • Mandotary: 这个维度类型用于cuboid裁剪,如果一个维度定义为"必要的(mandatory)",没有包信这个维度的维度组合会被裁剪;
  • Hierarchy: 这个维度类型用于cuboid裁剪,如果维度A,B,C有"层级(hierarchy)"关系,维度组合只保留A,AB或ABC
  • Derived: 在lookup表集中,一些维度集可能是从它的PK(主键)产生的,所以在它们和fact表的FK(外键)有特定的对应关系;而这些维度就是"衍生的(DERIVED)",可以不用参于cuboid的生成;
  • Count Distinct(HyperLogLog): 立即的COUNT DISTINCT很难计算,引入近似算法HyperLogLog,并将错误率保存在较低水平;
  • Count Distinct(Precise): 精确的COUNT DISTINCT预计算,是基于RoaringBitmap的,当前只支持INT或BIGINT;
  • Top N: 预计算top N
CUBE ACTIONS
  • BUILD: 给定分区字段的区间,这个动作会构建新的cube segment
  • REFRESH: 这个动作会根据分区区间重新构建cube segment,用于源表数据的增长;
  • MERGE: 将多个连续的cube segments合并;可以在cube descriptor里定义自动合并设置;
  • PURGE: 清空cube实例的segments;这只会更新元信息,不会删除HBase上的cube数据;
JOB STATUS
  • NEW: 一个任务被创建了
  • PENDING: 任务计划暂停了一个任务,等待资源;
  • RUNNING: 任务在运行
  • FINISHED: 任务完成
  • ERROR: 任务因错误退出
  • DISCARDED: 用户中止了任务;
JOB ACTION
  • RESUME: 从最新的成功点开始,重试ERROR状态的任务
  • DISCARD: 用户中止任务,翻译资源;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值