Kylin
zhiliang-chen
大数据工程师
展开
-
新型聚合组设计,以解决维度诅咒问题(尤其是存在高基数性维度)
摘要维度诅咒,是所有预计算OLAP引擎的严重问题;在1.5之前, kylin使用一些简单的技术处理这个问题,也减轻了问题的严重程度;在开源实践过程中,我们发现这些技术缺乏系统性设计思维,也无法处理很多常见问题;在1.5,我们重新设计了聚合组(aggregation group)机制,以更好地适应所有类型的cube设计场景;介绍已知的是,Kylin通过预计算"cube集"加快查询速度,意...翻译 2019-10-28 16:27:23 · 332 阅读 · 0 评论 -
kylin 术语
Data Warehouse: 数据仓库(DW或DWH),企业数据仓库(EDW),用于生成报告和数据分析的系统;Business Intelligence: 商业智能(BI),包含一系列的技术和工具,用于将原始数据转换为有意义的和有用的信息,用于商业分析;OLAP: 在线分析处理;OLAP Cube: 一个OLAP cube是一组数据,由0或多个维度组成;Star Schema: 星型模...翻译 2019-10-28 11:21:27 · 115 阅读 · 0 评论 -
kylin 专有的概念
CUBETable: 作为cubes源的hive表;在构建cubes前要先syncData Model: 描述星型模式数据模型;定义fact/lookup表和过滤条件Cube Descriptor: cube实例的定义和设置;定义使用的model,要包含的dimensions和measures,如何分区segments和处理自动合并等;Cube Instance: cube实例;从Cub...翻译 2019-10-28 10:36:09 · 260 阅读 · 0 评论 -
优化cube设计
分层结构(Hierarchies)理论上,N个维度将得到2^N 个维度组合;但是对一组维度,没必要创建这么多维度组合;例如,如果有3个维度: continent, country, city (从层级来说,更大的维度在更前面),当下钻分析时只需要支持3个group by的组合:group by continentgroup by continent,countrygroup by ...翻译 2019-10-25 17:53:26 · 363 阅读 · 0 评论 -
kylin 原理
Kylin是预计算引擎,如果有N个维度,则会计算出2^N个结果;示例数据源表: kylintest2个维度(dimensions): year,city1个指标(measure): priceyearcityprice1993beijing101993beijing301994shanghai201994beijing40预聚...原创 2019-09-29 17:04:12 · 222 阅读 · 0 评论 -
kylin实例
示例数据参见: kylin 用实例说明原理hive新表原始表create table if not exists chenzl.kylintest ( year int, city string, price int)row format delimitedfileds terminated by '|'lines terminated by '\n'stor...原创 2019-09-29 17:26:41 · 350 阅读 · 0 评论