starrocks

最新推荐文章于 2024-05-21 15:11:32 发布

EnndmeRedis

最新推荐文章于 2024-05-21 15:11:32 发布

阅读量98

点赞数

文章标签：数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52163230/article/details/133563441

版权

starrocks

分布式OLAP数据库系统，高效支持大数据量级的多维分析、实时分析、高并发分析等多种数据分析场景

定位
面向在线报表和分析的数据仓库系统。它采用了全面向量化技术，比同类产品平均快3-5倍。在查询性能上远超当代最快的开源数据库clickhouse

整体架构

FE 前端节点。多个FE组成第一层，提供FE的横向扩展和高可用。主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成
BE 后端节点。多个BE组成第二层，负责数据存储与管理、查询计划执行

采用列式存储、对数据以高压缩比进行压缩存储、向量化执行等先进技术，因此获得了极高的查询效率

列式存储

表中的每一列数据都会在物理上相邻存储，而不是将整个行的数据存储在一起

压缩率高：由于列中的数据通常是同一类型的，因此可以应用高效的压缩算法，从而减少存储空间的需求
- RLE：压缩列中连续相同值的情况，例如日期列
- Bit Packing：将列中的多个值打包成一个字节，压缩稀疏列，0/1较多的列
- Delta Encoding：将列中的值替换为前一个值与当前值之间的差值。排序或有序列的列
快速扫描：非常适合执行聚合操作，因为只需扫描和加载需要的列，而不必加载整个行
快速过滤：过滤操作，列式存储可以跳过不相关的列，从而减少I/O操作

向量化技术

基于列式存储

充分利用 CPU 的缓存。例如，有 10 列的一行数据和只需操作一列的查询计划。在基于行的查询处理模式中，9 列数据会不必要的占用缓存，限制了可以进入缓存的数据数量。在基于列的处理中，只会读入感兴趣的列数据，这样可以一起处理更多的值

核心思想：由列找行的实际转化推迟到查询计划的很靠后的位置进行处理

且现代CPU提供了SIMD（Single Instruction, Multiple Data）指令集，允许同时对多个数据元素执行相同的操作。向量化代码利用这些指令来执行相同操作的多个数据元素，从而减少了指令的数量和循环次数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
starrocks

starrocks 列式存储向量化技术
复制链接

扫一扫

EnndmeRedis CSDN认证博客专家 CSDN认证企业博客

码龄4年

74: 原创

31万+: 周排名

15万+: 总排名

5万+: 访问

: 等级

995: 积分

79: 粉丝

179: 获赞

82: 评论

157: 收藏

私信

关注

热门文章

分类专栏

advance 24篇
web 6篇
java 17篇
框架 9篇
DS 13篇
homework
project 2篇
数据库 2篇

最新评论

JavaSE第三章.数组
樊锦涛: 博主写这不行么增强for写错了
浅谈JVM调优
我也曾把你举过头顶: 不亏是樊哥，太强了
分布式秒杀系统构建
我也曾把你举过头顶: 认真看完，我0基础都觉得可以写秒杀项目了。太强了樊哥
计算机网络
星辰与晨曦: 博主写的太详细了，学到了，欢迎回访
DS-BTree
DrcRos: 学的快啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

EnndmeRedis 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。