springboot项目引入了doris数据，建表模式如何选？_springboot 使用doris

最新推荐文章于 2024-05-21 13:55:24 发布

2401_84006989

最新推荐文章于 2024-05-21 13:55:24 发布

阅读量692

点赞数 16

分类专栏：程序员文章标签： java 面试学习

本文链接：https://blog.csdn.net/2401_84006989/article/details/138741450

版权

程序员专栏收录该内容

196 篇文章 3 订阅

订阅专栏

Spring全套教学资料

Spring是Java程序员的《葵花宝典》，其中提供的各种大招，能简化我们的开发，大大提升开发效率！目前99%的公司使用了Spring，大家可以去各大招聘网站看一下，Spring算是必备技能，所以一定要掌握。

目录：

部分内容：

Spring源码

第一部分 Spring 概述
第二部分核心思想
第三部分手写实现 IoC 和 AOP（自定义Spring框架）
第四部分 Spring IOC 高级应用
基础特性
高级特性
第五部分 Spring IOC源码深度剖析
设计优雅
设计模式
注意：原则、方法和技巧
第六部分 Spring AOP 应用
声明事务控制
第七部分 Spring AOP源码深度剖析
必要的笔记、必要的图、通俗易懂的语言化解知识难点

脚手框架：SpringBoot技术

它的目标是简化Spring应用和服务的创建、开发与部署，简化了配置文件，使用嵌入式web服务器，含有诸多开箱即用的微服务功能，可以和spring cloud联合部署。

Spring Boot的核心思想是约定大于配置，应用只需要很少的配置即可，简化了应用开发模式。

SpringBoot入门
配置文件
日志
Web开发
Docker
SpringBoot与数据访问
启动配置原理
自定义starter

微服务架构：Spring Cloud Alibaba

同 Spring Cloud 一样，Spring Cloud Alibaba 也是一套微服务解决方案，包含开发分布式应用微服务的必需组件，方便开发者通过 Spring Cloud 编程模型轻松使用这些组件来开发分布式应用服务。

微服务架构介绍
Spring Cloud Alibaba介绍
微服务环境搭建
服务治理
服务容错
服务网关
链路追踪
ZipKin集成及数据持久化
消息驱动
短信服务
Nacos Confifig—服务配置
Seata—分布式事务
Dubbo—rpc通信

Spring MVC

目录：

部分内容：

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

6.数据模型的选择建议

1.为什么引入doris

因为目前博主项目用的mysql属于行存储，因为数据量较大遇到了瓶颈，每次数据刷新脚本执行的时间太长了，一晚上都不一定能更新完。于是领导让研究其他数据存放方式，而列存储很流行也很优秀，天选DB。
什么是列存储呢？举一个具体的例子，假设我们有一个employ关系表，employ表含有uuid，name，age三列，表总大小大约在3G左右。在行存储中，表”水平”存储，即按行连续存储，首先第一行，然后第二行。。。当执行SELECT uuid FROM employ 需要遍历表的所有数据(3G)来返回uuid列。而如果采用列存储，表是”垂直”存储的，每一列独立的存储为一个文件，employ表中的每一个列都有一个对应的文件存储。当用户执行SELECT uuid FROM employ 时，只需查询uuid对应的文件即可(30M)，而不必查询其他列所对应的文件，从而极大的减少了磁盘访问，提高查询速度。
列存储的优势：列存储查询可以剔除无关的列，当查询只有少量列时，可以极大的减少查询的数据量，提高查询速度。此外，列式存储还有更优秀的压缩算法等，掌握列存储技术不论对于求职面试，技术选型，还是增加自己的知识广度都是非常有帮助的。

2.doris安装与基本概念

由于官网或者各博客上都有详细的安装教程，我本人安装也没遇到啥困难，便不再赘述安装过程。默认安装完成之后可以访问8030端口的客户端，也可以通过navicat客户端工具连接，跟mysql连接用法一样，在程序中测试直接用jdbc连接即可。
基本概念：

Column分类-在聚合模型中，Column 可以分为两大类：Key 和 Value。从业务角度看，Key 和Value 可以分别对应维度列和指标列。从聚合模型的角度来说，Key 列相同的行，会聚合成一行。其中 Value 列的聚合方式由用户在建表时指定。
分区和分桶（Partition & Tablet）
在 Doris 的存储引擎中，用户数据首先被划分成若干个分区（Partition），划分的规则通
常是按照用户指定的分区列进行范围划分，比如按时间划分。而在每个分区内，数据被进一步的按照 Hash 的方式分桶，分桶的规则是要找用户指定的分桶列的值进行 Hash 后分桶。每个分桶就是一个数据分片（Tablet），也是数据划分的最小逻辑单元。
⚫ Tablet 之间的数据是没有交集的，独立存储的。Tablet 也是数据移动、复制等操作
的最小物理存储单元。
⚫ Partition 可以视为是逻辑上最小的管理单元。数据的导入与删除，都可以或仅能针
对一个 Partition 进行。
可以不用分区，但一般都会进行分桶。
Doris 的数据模型主要分为 3 类：Aggregate、Uniq、Duplicate, 这三类模型如何选择是本文重点讨论内容。

3.doris数据模型-Aggregate

Aggregate 模型即聚合模型，表中的列按照是否设置了聚合类型（AggregationType），分为 Key（维度列）和 Value（指标列），没有设置 AggregationType 的称为 Key，设置了 AggregationType 的称为 Value。
AggregationType 目前有以下四种聚合方式：
➢ SUM：求和，多行的 Value 进行累加。
➢ REPLACE：替代，下一批数据中的 Value 会替换之前导入过的行中的 Value(查询数据取最新的)。
➢ REPLACE_IF_NOT_NULL ：当遇到 null 值则不更新。
➢ MAX：保留最大值。
➢ MIN：保留最小值。

比如我从mysql表切换到doris的时候，key列一般设置成系统原有的列，value列是多出来的几个聚合字段，如前面某个字段的sum汇总值等。当我们导入数据时，对于 Key 列相同的行会聚合成一行，而 Value 列会按照设置的AggregationType 进行聚合。可以看出来这种模式非常适合统计分析模块，可以将经常group by分组查询的列设为key, 需要统计的值设为value列，这样导入数据时key列所有值相等的数据就预聚合了（最好不要有timestamp类型的数据，这样key值不同是无法聚合的）
什么时候会发生数据聚合呢，在 Doris 中有如下三个阶段发生：
（1）每一批次数据导入阶段。该阶段会在每一批次导入的数据内部进行聚合。
（2）底层 BE 进行数据合并的阶段。导入后数据有FE提交给BE后，BE 会对已导入的不同批次的数据进行进一步的聚合（有时延）。
（3）数据查询阶段。在数据查询时，对于查询涉及到的数据，会进行对应的聚合。
建表语句参考：

CREATE TABLE IF NOT EXISTS test_db.example_user
(
 `user_id` LARGEINT NOT NULL COMMENT "用户 id",
 `date` DATE NOT NULL COMMENT "数据灌入日期时间",
 `city` VARCHAR(20) COMMENT "用户所在城市",
 `age` SMALLINT COMMENT "用户年龄",
 `sex` TINYINT COMMENT "用户性别",
`last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 
00:00:00" COMMENT "用户最后一次访问时间",
 `last_visit_date_not_null` DATETIME REPLACE_IF_NOT_NULL DEFAULT 
"1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
 `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费"
)
AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 10;

4.doris数据模型-Uniq

在某些多维分析场景下，用户更关注的是如何保证 Key 的唯一性，即如何获得 Primary
Key 唯一性约束。因此，我们引入了 Uniq 的数据模型。该模型本质上是聚合模型的一个特例，也是一种简化的表结构表示方式。
建表语句参考：

CREATE TABLE IF NOT EXISTS test_db.user
(
 `user_id` LARGEINT NOT NULL COMMENT "用户 id",
 `username` VARCHAR(50) NOT NULL COMMENT "用户昵称",
 `age` SMALLINT COMMENT "用户年龄",
 `sex` TINYINT COMMENT "用户性别",
 `phone` LARGEINT COMMENT "用户电话",
 `address` VARCHAR(500) COMMENT "用户地址",
 `register_time` DATETIME COMMENT "用户注册时间"
)
UNIQUE KEY(`user_id`, `username`)


### 架构学习资料

![准备两个月，面试五分钟，Java中高级岗面试为何越来越难？](https://img-blog.csdnimg.cn/img_convert/244827a881a63f13e23700efb074fba5.webp?x-oss-process=image/format,png)

![准备两个月，面试五分钟，Java中高级岗面试为何越来越难？](https://img-blog.csdnimg.cn/img_convert/e98d155d935eaec7995d875e37596e4e.webp?x-oss-process=image/format,png)

![准备两个月，面试五分钟，Java中高级岗面试为何越来越难？](https://img-blog.csdnimg.cn/img_convert/7b55d0ac8f28a5f1f1b3969645d7bbc4.webp?x-oss-process=image/format,png)

![准备两个月，面试五分钟，Java中高级岗面试为何越来越难？](https://img-blog.csdnimg.cn/img_convert/8525f6d0e844faa1991effa097f272ad.webp?x-oss-process=image/format,png)

![准备两个月，面试五分钟，Java中高级岗面试为何越来越难？](https://img-blog.csdnimg.cn/img_convert/3b81ce5a0b9feebf3ed8733131b8de4e.webp?x-oss-process=image/format,png)

> 由于篇幅限制小编，pdf文档的详解资料太全面，细节内容实在太多啦，所以只把部分知识点截图出来粗略的介绍，每个小节点里面都有更细化的内容！


> **本文已被[CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)收录**

**[需要这份系统化的资料的朋友，可以点击这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

已被[CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)收录**

**[需要这份系统化的资料的朋友，可以点击这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

2401_84006989

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
springboot项目引入了doris数据，建表模式如何选？_springboot 使用doris

而如果采用列存储，表是”垂直”存储的，每一列独立的存储为一个文件，employ表中的每一个列都有一个对应的文件存储。Aggregate 模型即聚合模型，表中的列按照是否设置了聚合类型（AggregationType），分为 Key（维度列）和 Value（指标列），没有设置 AggregationType 的称为 Key，设置了 AggregationType 的称为 Value。此外，列式存储还有更优秀的压缩算法等，掌握列存储技术不论对于求职面试，技术选型，还是增加自己的知识广度都是非常有帮助的。
复制链接

扫一扫