Doris 数仓建设规范简述

26 篇文章 16 订阅

目录

一、字符集规范

二、建表规范

三、数据变更规范

四、数据查询规范

规范整理,以做知识沉淀,如有错误请指正~

一、字符集规范

【强制】数据库字符集指定utf-8,并且只支持utf-8。

1)【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内

2)【建议】表名称大小写敏感,统一使用小写方式并且不可修改,中间用下划线(_)分割,长度64字节内。

二、建表规范

1)【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。

2)【强烈建议】不要使用Auto Bucket 自动分桶,按照自己的数据量来进行分区分桶,这样导入及查询性能都会得到很好的效果,Auto Bucket会造成 tablet 数量过多,造成大量小文件的问题。

3)【分区分桶】5 亿以上的数据必须设置分区分桶策略。

  • 没有办法分区的,数据又缓慢增长的:单个tablet数据量保
Doris 建设数仓建表规范主要包括以下几个方面。 1. 表名规范:表名应具有明确的含义,能够清晰地反映表的内容和用途。表名应该使用小写字母,可以使用下划线分隔单词,遵循命名规范,以提高可读性。 2. 字段命名规范:字段名也应该具有明确的含义,用于描述字段所代表的数据意义。字段名应使用小写字母,如果字段名由多个单词组成,可以使用下划线分隔,遵循命名规范,以提高可读性。 3. 字段类型规范:根据实际的数据类型选择适当的字段类型,以减少存储空间的占用和提高查询效率。常见的字段类型包括整型、浮点型、日期时间型、字符型等。 4. 主键设置规范:每张表应该有一个主键,用于唯一标识每条记录。主键可以是单个字段或多个字段的组合,根据实际情况进行选择。主键的选择应尽量避免频繁变更和冲突。 5. 索引规范:根据查询的需求,合理设置索引,以提高查询效率。索引可以加快数据的查询速度,但同时也会增加写入和更新的时间。应根据实际情况进行权衡和选择。 6. 表关系规范:如果有多张表之间存在关联关系,应该明确定义和建立表之间的关系,如外键约束。这样可以保证数据的完整性,减少冗余和错误。 7. 数据分区规范:对于大型表,可以进行数据分区,将数据按照某个字段进行划分,以提高查询和处理的效率。数据分区可以根据时间、地域等维度进行划分。 通过遵循这些建表规范,可以提高数据仓库的可维护性、可扩展性和查询性能,减少数据质量问题和冗余数据的产生。同时,也能提高数据分析和业务应用的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值