大数据
文章平均质量分 92
kai_ding
这个作者很懒,什么都没留下…
展开
-
StarRocks 存算分离 Compaction 原理
StarRocks 中每次数据摄入都会生成一个新的数据版本,而查询时需要将所有版本数据进行合并才能获得一个正确的结果,如果历史数据版本太多,那么查询时需要读取的文件数也会很多,造成查询效率低下。因而 StarRocks 存在内部任务定期将历史数据版本进行整合,消除重复数据记录,我们称之为 Compaction。Compaction 是为了将不同版本的数据文件进行整合,合并成大文件的动作,减少系统中小文件数量,进而提升查询效率。Compaction 调度由 FE 发起,BE执行。原创 2024-08-21 11:24:43 · 975 阅读 · 0 评论 -
StarRocks 存算分离 Data Cache 二三事
StarRocks 存算分离模式架构中,数据导入后,会被写入远端对象存储。而对象存储由于其访问延迟较高特性,如果没有任何优化,每次查询直接访问后端对象存储,那么性能就会变得非常差,也就失去了 StarRocks 的性能优势。一般而言,在存算分离架构下需要在计算节点上使用本地磁盘来缓存系统经常访问的热点数据,这样,当查询访问到这些数据时,直接访问本地磁盘中的缓存即可,可以提供与存算一体架构同等的查询性能。原创 2024-08-13 16:37:36 · 521 阅读 · 0 评论 -
指如疾风,势如闪电-StarRocks Fast Schema Evolution in V3.3.0
使用 StarRocks 存算分离功能的同学可能之前常常被 DDL (常见的如增加列等)所困扰,主要在于 DDL 的执行时间过长并可能由此引发的一系列问题(如超时失败等),用户可能有时候不得不采用其他方式来替代(如按照新的 Schema 来重建表并重新导入数据)。幸运的是,在 3.3.0 版本中即将推出的 Fast Schema Evolution 能力让这一困扰我们许久的问题彻底变为历史。原创 2024-08-08 14:34:11 · 773 阅读 · 0 评论