大数据
classyex
这个作者很懒,什么都没留下…
展开
-
Apache Kylin构建cube优化
Apache Kylin是一个开源的分布式分析引擎,是大数据集大成者。所谓集大成者,就是把大数据里面的基础组件都用了个遍,Hive、MapReduce、HBase,HDFS,YARN,Zookeeper这些。大数据计算都比较耗时,Kylin采用预计算的方式来换取更快的速度,是典型的以空间换时间思想,使用资源越多,查询延迟越低。 cube构建时默认会按照设置的维度组合构建出全部的聚合结果,一共有2^n个结果,结果集太大并且不是所有维度的组合结果都会用到,因此结合业务场景权衡时间和空间,通过设置相关的构建条件,原创 2020-08-23 21:38:44 · 288 阅读 · 0 评论 -
ClickHouse数据引擎总结
ClickHouse提供了大量的数据引擎,分为数据库引擎、表引擎,根据数据特点及使用场景选择合适的引擎至关重要,这里根据资料做一些总结。 数据库引擎默认是Ordinary,在这种数据库下面的表可以是任意类型引擎。 生产环境中常用的表引擎是MergeTree系列,也是官方主推的引擎。MergeTree是基础引擎,有主键索引、数据分区、数据副本、数据采样、删除和修改等功能,ReplacingMergeTree有了去重功能,SummingMergeTree有了汇总求和功能,AggregatingMergeTre原创 2020-08-12 23:59:08 · 1616 阅读 · 0 评论