doris数据模型，07-Duplicate模型

车前猛跑

已于 2023-12-26 22:50:49 修改

阅读量780

点赞数 8

分类专栏：数据开发文章标签：服务器 doris 数据开发

于 2023-12-26 22:41:04 首次发布

本文链接：https://blog.csdn.net/cin_ie/article/details/135232900

版权

数据开发专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍了DuplicateKey模型在数据导入时如何避免聚合冲突，特别适合对日志分析不关注数据完整性的场景。它利用列存储模型，仅读取相关列，适合无主键且无需预聚合的数据处理。同时提及了分布式存储的特性。

摘要由CSDN通过智能技术生成

概念

Duplicate Key模型，导入数据时不会产生聚合，源数据不失真。
被指定为Duplicate Key的字段用来指示底层数据按照该字段排序。

如：对于日志分析，不在意多几条，少几条数据，只关心排序，这时候Duplicate Key模型就有用武之地了。

create table if not exists test_db.example_log
(
	`log_time` datetime not null comment "日志时间",
	`type` int not null comment "日志类型",
	`error_code` int comment "错误码",
	`error_msg` varchar(1024) comment "错误详细信息",
	`op_id` bigint comment "负责人id",
	`op_time` datetime comment "处理时间" 
)
duplicate key (`log_time`, `type`)
distributed by hash(`log_time`) buckets 10;

特点

适用于数据即没有主键，也没有聚合需求的场景
虽然不能使用预聚合功能，但是，可以发挥列存储模型的优势，只读取相关列，不需要读取所有字段的列。

车前猛跑

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
doris数据模型，07-Duplicate模型

Duplicate Key模型，导入数据时不会产生聚合，源数据不失真。如：对于日志分析，不在意多几条，少几条数据，只关心排序，这时候。的字段用来指示底层数据按照该字段。模型就有用武之地了。
复制链接

扫一扫

专栏目录