StarRocks分区分桶及副本数概念

HuailiShang

已于 2024-03-16 22:57:36 修改

阅读量928

点赞数 10

文章标签：大数据 big data 数据仓库

于 2024-03-16 22:55:30 首次发布

本文链接：https://blog.csdn.net/HuailiShang/article/details/136771383

版权

本文详细介绍了StarRocks3.0的存算一体架构，探讨了数据分布的Round-Robin、Range、List和Hash方式在StarRocks中的应用，以及如何通过分区和分桶实现数据均衡和性能优化。通过实例展示了建表语句中的数据分布策略及其影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、StarRocks系统架构

目前笔者生产环境接触的StrarRocks版本为3.0，按照官网描述属于存算一体架构。其系统架构简图如下。

系统架构

FE 负责元数据管理和构建执行计划；BE 负责实际执行以及数据存储管理，BE 采用本地存储，通过多副本的机制保证高可用。

二、常见数据分布方式

本文所讨论的分区分桶和副本概念属于数据分布(数据存储管理)的范畴。建表时通过设置合理的分区和分桶，以实现数据均匀分布和查询性能提升。

分布式数据库中，常见的数据分布方式有如下几种：Round-Robin、Range、List 和 Hash。

数据分布

Round-Robin：以轮询的方式把数据逐个放置在相邻节点上。

Range：按区间进行数据分布。如上图所示，区间 [1-3]、[4-6] 分别对应不同的范围 (Range)。

List：直接基于离散的各个取值做数据分布&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HuailiShang

关注关注

10
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

StarRocks 面试题及参考答案详解（万字详解）

大模型大数据攻城狮的专栏

04-02

1075

Broker Load的过程通常涉及到数据的解析、转换和加载，它支持多种数据格式，并且可以处理复杂的数据导入任务。一方面，压缩可以减少磁盘I/O操作，因为压缩后的数据占用的空间更小，需要读取的数据块数量也就更少。在StarRocks中，表数据可以被划分成多个分区，每个分区包含表的一部分数据。在传统的行存储模型中，数据是按行组织的，这意味着在执行分析查询时，系统需要读取并处理整行数据，即使很多时候只需要查询其中的少数几列。物化视图的更新可以是完全重算，也可以是增量更新，取决于物化视图的定义和数据变更的模式。

StarRocks实战——表设计规范与监控体系

爱吃辣条的博客

02-27

2439

StarRocks实战——表设计规范与监控体系

1 条评论您还未登录，请先登录后发表或查看评论

Flink-StarRocks详解:第三部分StarRocks分区分桶(第53天)

syhiiu的博客

08-02

2488

本文为Flink-StarRocks详解后续章节：主要详解StarRocks分区分桶由于篇幅过长，后续接着下面进行详解： StarRocks查询数据湖 实现即席查询案例需要显式列出每个 List 分区所包含的枚举值列表，并且值不需要连续，区别于包含连续日期或者数值范围的 Range 分区。当新数据导入表中时，StarRocks 会根据数据的分区列值与分区的映射关系将数据分配到相应的分区中。List 分区适用于存储具有少量枚举值列的数据、并且经常按列的枚举值来查询和管理数据的场景。

第2.4章 StarRocks表设计——分区分桶与副本数

爱吃辣条的博客

02-17

4887

2.4 StarRocks表设计——分区分桶与副本数

StarRocks -- 基础概念(数据模型及分区分桶)

u013071014的博客

01-30

2842

starrocks 数据模型及分区分桶

【MPP数据库】StarRocks分区、分桶探索与实践

Coinker的博客

02-01

3216

StarRocks 分区分桶探索与实践

吃透StarRocks分区、分桶

最新发布

SengMay的专栏

11-05

931

在StarRocks中，表被划分成多个Tablet，多副本场景下，每个Tablet多副本冗余存储在BE（Backend）上。对于单分区表、数据在逻辑上划分为多个桶（Bucket）,每个桶的数据称之为一个Tablet。如果设置为单分区单桶，那么无论数据量大小，都只会有一个Tablet，因为所有数据都属于同一个桶。

starrocks副本与分桶

06-08

在StarRocks中，副本（Replicas）和分桶（Buckets）是数据分布和复制的重要概念： 1. 副本（Replicas）: 在StarRocks中，为了提高可用性和容错性，每个数据块通常会被复制到多个节点上。这些副本分布在不同的物理...

StarRocks简介及安装

q495673918的博客

10-31

7895

StarRocks 是一款高性能分析型数据仓库，既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议，可使用 MySQL 客户端和常用 BI 工具对接。广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。

第2.4章：StarRocks表设计--分区分桶与副本数

wr_java的博客

03-31

3314

StarRocks采用Range-Hash的组合数据分布方式，也就是我们一直在提的分区分桶方式。

OLAP(七)：StarRocks

08-26

2003

StarRocks 是一款极速统一的Lakehouse产品，具备水平在线扩缩容，金融级高可用，兼容 MySQL 5.7 协议和 MySQL 生态，提供全面向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为用户提供统一的解决方案，适用于对性能，实时性，并发能力和灵活性有较高要求的各类应用场景。首先我们先来看一下 StarRocks 是一款什么样的产品，他的产品定位是什么样的，他处于大数据生态什么位置上。

StarRocks数据分区之临时分区

vv5559999的博客

05-09

782

可以在一张已经定义分区规则的分区表上，创建临时分区，并为这些临时分区设定单独的数据分布策略。在原子覆盖写操作或调整分区分桶策略时候，您可以将临时分区作为临时可用的数据载体。您可以为临时分区设定的数据分布策略包括分区范围、分桶数、以及部分属性，例如副本数、存储介质。

StarRocks数据分区之表达式分区

vv5559999的博客

05-09

1895

v3.0 起，StarRocks 支持表达式分区（原称自动创建分区），更加灵活易用，适用于大多数场景，比如按照连续日期范围或者枚举值来查询和管理数据。仅需要在建表时设置分区表达式（时间函数表达式或列表达式）。在数据导入时，StarRocks 会根据数据和分区表达式的定义规则自动创建分区，无需在建表时预先手动/批量创建大量分区，或者配置动态分区属性。

第6.4章：StarRocks冷热分区

流木的博客

10-24

5507

在大数据业务中，虽然每天都有大量的数据入库，但通常只有时间最新的，如一个月内，甚至一周内的数据才会被频繁更新和访问。动态分区表调度创建的分区会使用集群默认配置的存储介质和到期时间，若需要为动态分区表自动配置冷热分区，可以将集群默认的存储介质调整为。，但这个属性仅会用于表创建时的三个分区，后面新建的分区若不指定，还是会使用默认的存储介质。支持为不同分区的数据设置不同的存储介质，目前支持的介质为机械硬盘（盘中，以节省数据存储的成本，此时这个分区就变成了数据存储在。在某些数据具有冷热特性的业务中，我们可以将。

弄清Doris/StarRocks分区partition by和分桶distributed by的区别，以及如何选择对应的字段

m0_71049680的博客

08-11

9136

选择分区键选择合理的分区键可以有效的裁剪扫描的数据量。目前仅支持分区键的数据类型为日期和整数类型。在实际业务场景中，一般从数据管理的角度选择分区键，常见的分区键为时间或者区域。按照分区键划分数据后，单个分区原始数据量建议不要超过 100 GB。选择分桶键选择高基数的列（例如唯一 ID）来作为分桶键，可以保证数据在各个分桶中尽可能均衡。如果数据倾斜情况严重，您可以使用多个列作为数据的分桶键，但是不建议超过 3 个列。...

为什么在doris/starrocks中建表必须指定分桶键

yuan_53yuan的博客

08-07

638

Range+Hash 数据分布方式：一张表拆分成多个分区，每个分区按照分桶键和分桶数量进一步进行数据划分。Hash 数据分布方式：一张表为一个分区，分区按照分桶键和分桶数量进一步进行数据划分。这些Tablet又会在多个BE中存多个副本，来保证数据的高可靠。tablet是starrocks中是数据均衡和恢复的最⼩单位。数据导入和查询最终都下沉到所涉及的 Tablet 副本上。是按文件存，不分区，就存储整个文件，而。中仍是分区比分桶范围更大，只不过对比。

第2.1章 StarRocks表设计——概述

爱吃辣条的博客

02-22

1870

第2.1章 StarRocks表设计——概述

10分钟带你全面了解StarRocks