Cube的其他优化

最新推荐文章于 2024-07-13 12:28:08 发布

xwhfcenter

最新推荐文章于 2024-07-13 12:28:08 发布

阅读量391

点赞数

分类专栏： OLAP 文章标签： Kylin OLAP Cube

本文链接：https://blog.csdn.net/hfcenter/article/details/80908269

版权

7 篇文章 0 订阅

订阅专栏

当Segment中某一个Cuboid的大小超过一定的阈值时, 系统会将该Cuboid的数据分片到多个分区中, 以实现Cuboid数据读取的并行化, 从而优化Cube的查询速度
每个Cube可以单独进行配置
参数设置:

Cube的每个Cuboid中都包含了大量的行，每个行又分为Rowkeys和Measure部分
每行Cuboid数据中的Rowkeys都包含当前Cuboid中所有维度值的组合

编码代表了该维度的值应使用何种方式进行编码, 合适的编码能够减少维度对空间的占用

Kylin目前支持以下几种编码方式:

Date编码: 将日期类型的数据使用三个字节进行编码, 其支持从0000-01-01到9999-01-01中的每一个日期
Time编码: 仅支持表示从1970-01-01 00:00:00到 2038-01-19 03:14:07的时间, 但是会丢失毫秒信息
Integer编码: 长度为1~8, 用来编码整数类型的维度, 提供额外参数Length
Dict编码: 为维度所有可能的值创建字典, 使用字典中每个值的编号来编码

产生的字典是在查询时加载入构建引擎和查询引擎的, 所以在维度的基数大、长度也大的情况下, 容易造成构建引擎或查询引擎的内存溢出
Fixed_length编码: 以固定长度的字节来存储代表维度值的字节数组, 该数组为字符串形式的维度值的UTF-8字节
如果维度值的长度大于预设的Length, 那么超出的部分将会被截断