StarRocks跨集群迁移最佳实践｜得物技术

得物技术

于 2024-07-09 10:02:34 发布

阅读量2.1k

点赞数 19

文章标签：数据库 StarRocks OLAP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SmartCodeTech/article/details/140263499

版权

一、引言

2024年之前，DBA维护的StarRocks集群存在在用低版本多、稳定性受组件bug影响大的问题，给日常运维带来一定压力，版本升级迫在眉睫。于是，我们在今年年初安排了针对2.5以下版本升级2.5.13的专项。这里和大家分享下，针对因版本兼容问题而不能原地升级的场景下，进行跨集群升级时迁移数据方面的实践。

二、方案流程

方案可行性评估口径

针对跨集群迁移方案的评估，主要从迁移成本角度考虑，主要分为资源成本和稳定性成本：

资源成本

完成迁移所需要的人力工时投入、软硬件投入（如使用哪些三方平台、需要多少机器资源、带宽资源等）。

稳定性成本

数据迁移过程中，线上业务一般仍会继续提供服务，则迁移操作对系统产生的压力可能影响正常的生产服务，随之会带来额外的稳定性成本。这里从迁移服务产生系统压力的可监控预警能力评估稳定性成本。

方案设计

方案一：StarRocks外表

1. 技术原理

1.19 版本开始，StarRocks支持将数据通过外表方式写入另一个StarRocks集群的表中。这可以解决用户的读写分离需求，提供更好的资源隔离。用户需要首先在目标集群上创建一张目标表，然后在源StarRocks集群上创建一个Schema信息一致的外表，并在属性中指定目标集群和表的信息。

通过INSERT INTO写入数据至StarRocks外表，可以将源集群的数据写入至目标集群。借助这一能力，可以实现如下目标：

集群间的数据同步；
读写分离。向源集群中写入数据，并且源集群的数据变更同步至目标集群，目标集群提供查询服务。

2. 方案评估

3. 适用场景

数据量较小（200G以内）；
无三方平台可用；
数据迁移无需考虑稳定性成本；
测试场景快速验证；
存在hll、bitmap类型字段，但是又没有底表数据进行数据重建（hll/bitmap类型字段借助三方组件进行迁移的方案可参考官方文档flink导入至-bitmap-列、flink导入导入至-hll-列等）；
Array/Map/Row等复杂类型的迁移。

方案二：Flink Connector

1. 技术原理

Flink是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。随着不断迭代，Flink已提供了接口统一的批流处理模型定义，同时提供了灵活强大的DataStream API和抽象度更高的Table API，供开发人员尽情发挥，更提供了SQL支持。

Flink提供了丰富的Connector，用以打通各类数据源，形成强大的数据联通能力。StarRocks官方也推出了导入和导出Connector，满足基于Flink对StarRocks的读写能力。

2. 方案评估

3. 适用场景

数据量较大；
有三方平台可用；
稳定性要求高，期望控制稳定性成本；
有24h持续同步需求。

方案规划

在同步操作前，需要明确待同步的数据范围，统计较精确的待迁移数据量，评估数据迁移所需耗时，决策数据迁移完成时间等。

方式一

结合预期的同步完成DDL，集群每天可用于同步的时间段，推导出同步时需要达到的速率。

计算公式：

预期同步最大速率(MB/s)=待同步数据总量(MB)/同步总耗时(天)/每天可同步时间(个小时/天)

方式二

根据集群负载可支持的最大速率、集群每天可用于同步的时间段，计算完成同步所需的时间。

同步总耗时(天)=待

最低0.47元/天解锁文章

博客等级

码龄5年

得物技术官方账号

306
原创

2846
点赞

3144
收藏

2322
粉丝

关注

私信

热门文章

分类专栏

得物技术 93篇

展开全部收起

上一篇：: Disruptor在撮合引擎的实践｜得物技术

下一篇：: 基于Rspack实现大仓应用构建提效实践｜得物技术

最新评论

你的debug包在Android 14变卡了吗？｜得物技术
阿迪Jond: 一开始遇到了,也推测了是系统问题.但没能找到详细原因，博主强
RUST练习生如何在生产环境构建万亿流量|得物技术
Higgins995: 文中给出的示例代码有误：可变借用示例的代码与不可变借用示例的代码一致
从大模型性能优化到DeepSeek部署｜得物技术
MemPhi G: 如何尝试使用deepseek API呢
从大模型性能优化到DeepSeek部署｜得物技术
程序猿全栈の董: 这篇文章深入探讨了本地部署大模型时性能优化的多个方面，并结合实践进行了评测分析。以下是我对文章内容的总结和看法：一、背景 ‌大模型推理性能优化‌：随着Deepseek-r1等大模型的爆火，本地部署大模型的需求日益增长。性能优化主要聚焦于吞吐量和响应时间两个关键指标。二、高性能、易扩展的大模型推理框架 ‌CPU与GPU分离设计‌：为了提高性能，大模型推理框架应采用CPU与GPU分离设计。CPU进程负责序列化、调度等任务，而GPU进程专注于推理计算。这种设计可以显著提高GPU利用率，减少GIL锁的竞争。 ‌模块高内聚低耦合‌：推理框架应拆分为多个模块，包括接入层、调度器、模型推理和显存管理等，以实现高效且易于扩展的设计。三、解决显存碎片问题，大幅提升吞吐—Paged Attention ‌显存碎片问题‌：在大模型推理中，频繁的显存申请与释放会导致显存碎片问题。 ‌Paged Attention‌：借鉴操作系统的内存管理机制，将KV Cache划分为固定大小的块，并通过Block table进行映射管理。这种方法有效减少了显存碎片，提高了GPU利用率和吞吐量。四、缓存之前请求的计算结果，减少重复计算—Radix Attention ‌重复计算问题‌：在实际应用中，多个请求往往包含相同的Prompt部分，导致重复计算。 ‌Radix Attention‌：利用基数树高效管理和重用不同请求之间共享的前缀，从而减少重复计算和内存占用。这种方法显著提高了推理速度和吞吐量。五、请求分块处理，避免单个请求卡顿 —— Chunked Prefill ‌卡顿问题‌：在大模型推理中，长Prompt的推理可能导致GPU资源占用过多，影响其他请求的响应时间。 ‌Chunked Prefill‌：将长Prompt按固定长度分块处理，每次只处理一块。这种方法减轻了单个请求对GPU资源的占用，避免了卡顿现象。六、缩短输出长度，显著提升性能 ‌输出长度影响‌：大模型的输出长度越长，响应时间越长。 ‌缩短输出长度的方法‌：包括限制最大输出长度、通过Prompt限制输出、微调大模型等。这些方法可以显著提高响应时间。七、使用多卡推理，推理速度翻倍 ‌多卡推理优势‌：在无法量化大模型但对响应时间有高要求的情况下，多卡推理可以显著提高推理速度和QPS。 ‌张量并行‌：多卡推理通过张量并行实现优化
Go-Job让你的任务调度不再繁琐｜得物技术
endfind1990: 开源么

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。