韩家小志-CSDN博客

原创 Doris与ClickHouse的对比

工作中olap引擎主要用的是 Doris和ClickHouse，一直想要做一个对比，这里梳理一下自己的理解。对比DorisClickHouse架构FE和BE分离的 MPP 架构单机设计，依赖 ZooKeeper分布式协调数据一致性好差SQL 兼容性好差数据模型丰富单一并发能力支持高并发不支持高并发查询场景多表join单表查询。

2025-07-30 00:05:14 849

原创 Spark--一文了解SparkSql的优化（从底层梳理）

最近一直在优化代码，发现自己的知识太碎片化不成体系，因此参考各大佬的文章结合自己的理解整理了一下，整理之后发现清晰了很多~大家可以参考一下😋性能调优是一个动态、持续不断的过程补齐一个短板其他板子可能会成为新的短板针对瓶颈事半功倍；针对长板事倍功半调优的最终目的是在不同的硬件资源之间寻求平衡官方网址极客-spark调优RDD 的重点属性RDD所需的数据集从哪来?(partitions-分区列表)如何划分?(partitioner-分区器)RDD的依赖关系是怎样的?

2025-04-07 00:55:25 1766 1

原创 Spark--一文了解SparkSql参数含义

默认值优先级最低，用户如果提交任务时或者代码里明确指定配置，则以用户配置为先。用户在理解参数含义的基础上，可根据具体任务情况调整参数（修改提交参数–conf值，不是spark-defaults.conf文件）。以下常用参数配置均可以通过 --conf XXX=Y 方式使用，其他参数以及介绍请参考官方文档官方文档里有参数的开始生效版本(Since Version)，如果找不到参数不正确或者apache最新版本的spark已经删除了相关配置，官方文档里现在只显示最新版本的可用参数。

2025-04-02 01:42:19 1558

原创 ⭐️⭐️⭐️⭐️⭐️数仓优化总结⭐️⭐️⭐️⭐️⭐️

梳理了下工作中对于优化的理解，供大家参考

2025-03-22 04:08:47 414

原创 Spark--一文了解SparkSql的Join策略

Join连接是大数据处理的重要手段，它基于表之间的共同字段将来自两个或多个表的行结合起来。但是我们真的了解join吗？join都有哪些，是怎么实现的?

2025-03-19 22:15:00 2128 2

原创 Sparksql函数

这里我只整理了比较感兴趣的函数，更多的可以参考官方文档，也可以看下这个文档查看你的版本-- 例如 3.0.2 xxxxxx。

2024-06-03 23:15:00 1776

原创 hive/spark--select `(ds|hr)?+.+`

这个sql代表从表table_a 中select 出来除了colum_a和colum_b的所有列。

2024-05-23 19:00:48 872

原创 ClickHouse-hive推数ck报错expected ‘\t‘ before等

【代码】ClickHouse-hive推数ck报错expected ‘\t‘ before等。

2024-05-22 16:49:43 796

原创数据库系统工程师

软考中级-数据库系统工程师，梳理了知识点

2024-05-14 00:50:32 2100 1

原创 Spark--一文了解WebUI

日常工作中经常用到sparkui来排查一些问题，有些东西需要经常搜索，网上的文章有写的很棒的，也有写的一言难尽的，这里参考了其他大佬的文章，自己整体梳理了一下，方便自己使用，也希望能帮助到大家～

2024-01-16 22:32:57 7356 4

原创 Presto--常见语法

我们的查询引擎有hive、spark、presto，presto查询速度快，但是很多语法和sparksql不兼容，这里记录一下经常用的语法，方便自己使用，也供大家参考。

2024-01-16 18:07:37 3244

原创 Hive--map个数过多超阈值被kill

【代码】Hive--map个数过多超阈值被kill。

2023-12-05 23:37:44 436

原创 Hive--java.io.IOException:Split metadata size exceeded 10000000

【代码】Hive--java.io.IOException:Split metadata size exceeded 10000000。

2023-12-05 23:31:47 542

原创 Spark--insert overwrite插入目标表慢/读取orc表执行时间比较长解决

【代码】Spark--insert overwrite慢解决。

2023-12-05 23:27:49 2279 6

原创 CronTrigger--Cron表达式

如果您需要一个基于日历类概念(而不是基于SimpleTrigger的精确指定间隔)递归的作业触发计划，那么CronTrigger通常比SimpleTrigger更有用。支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔使用CronTrigger，您可以指定休假时间表，如“每周五中午”或“每个工作日和上午9:30”，甚至“一月期间每周一、周三和周五上午9:00到10:00之间每5分钟”。

2023-12-05 23:27:10 1953

原创 Hive--经典报错OOM集锦

【代码】Hive--经典报错OOM集锦。

2023-12-05 23:25:55 452

原创 java相关

java相关1.JVM内存管理的机制2.Java堆和栈的区别3.Java内存泄露和内存溢出4.Java类加载机制5.内存回收1.JVM内存管理的机制内存空间划分为：Sun JDK在实现时遵照JVM规范，将内存空间划分为堆、JVM方法栈、方法区、本地方法栈、PC寄存器。堆：堆用于存储对象实例及数组值，可以认为Java中所有通过new创建的对象的内存都在此分配，Heap中对象所占用的内存由GC进行回收，在32位操作系统上最大为2GB，在64位操作系统上则没有限制，其大小可通过-Xms和-Xmx来控制，

2023-12-03 19:36:38 164

原创 Doris--修改表和删除表

【代码】Doris--修改表和删除表。

2023-12-03 18:54:54 6167

原创 Doris--物化视图

的操作，也就是说用户成功提交创建任务后，Doris 会在后台对存量的数据进行计算，直到创建成功。首先要根据查询语句的特点来决定创建一个什么样的物化视图。并不是说物化视图定义和某个查询语句一模一样就最好。

2023-12-03 18:32:54 4288 1

原创 Doris--Rollup

上卷。

2023-12-03 17:38:11 666

原创 Doris--动态分区

【代码】Doris--动态分区。

2023-12-03 16:41:43 2595

原创 Doris--数据表数据模型

为了得到正确的结果，我们必须同时读取 user_id 和 date 这两列的数据，再加上查询时聚合，才能返回 4 这个正确的结果。因此，当业务上有频繁的 count(*) 查询时，我们建议用户通过增加一个值恒为 1 的，聚合类型为 SUM 的列来模拟。因为数据模型在建表时就已经确定，且无法修改。所以，选择一个合适的数据模型非常重要。但是在 Doris 的聚合模型中，这种查询的开销非常大。上面的例子， count(*) 的正确结果应该为 4。在其他数据库中，这类查询都会很快的返回结果。

2023-12-03 15:51:04 1290

原创 idea-mac下常用快捷代码&快捷键（如何调整&新增&使用）

换电脑+好长时间没有使用idea了，好多快捷代码和快捷键忘了，之前有过笔记，这里再整理一下，方便自己查看，大家有兴趣也可以自己记录一下参考了很多篇文章，以及自己测试，这里给大家推荐几个我认为写的不错的【史上最全面的 IntelliJ IDEA 教程】不要再找了，这篇博客就够了！史上最全的IDEA快捷键总结Idea 中最常用的10款插件，提高开发效率Eclipse 最牛逼的 10 组快捷键，提高开发效率史上最牛逼的 VSCode 插件，提高开发效率史上最全的 VsCode 快捷键，提高开发效率。

2023-11-08 20:35:11 833

原创 sparksql源码学习-环境安装

最近在思考想要学习一下spark源码，换了新的mac电脑，各种小问题，贼费时间，记录了一下，如果你有问题可以直接参考，省的浪费时间～～Mac–终端tab补全&不区分大小写Mac–终端ls报错Operation not permitted。

2023-11-04 23:59:27 348

原创 Mac--终端ls报错Operation not permitted

记录每次换新电脑的一堆无意义的报错解决

2023-10-31 22:58:02 7695 1

原创 Doris--数据表建表语法&数据划分（分区&分桶）

以 AGGREGATE KEY 数据模型为例进行说明。更多数据模型参阅 Doris 数据模型。列的基本类型，可以通过在 mysql-client 中执行查看。AGGREGATE KEY 数据模型中，所有没有指定聚合方式（SUM、REPLACE、MAX、MIN）的列视为 Key 列。而其余则为 Value 列。定义列时，可参照如下建议：Key 列必须在所有 Value 列之前。尽量选择整型类型。因为整型类型的计算和查找比较效率远高于字符串。对于不同长度的整型类型的选择原则，遵循够用即可。

2023-03-17 16:40:41 12605

原创 Doris--数据表基本概念和字段类型

doris表的基本概念，字段类型（特殊类型的使用场景），建表示例

2023-03-07 16:31:58 4193

原创 Doris--简介

系统了解doris

2023-03-06 11:38:24 1923

原创 hive--执行计划

来聊一聊执行计划，如果掌握了MapReduce，且开发者有一定的经验积累可以反推Compiler将SQL转换的MapReduce执行算法，并借助explain来比对你构思的执行计划和实际生成的执行计划是否存在差异，并思考差异的原因是啥，慢慢就能够对生成的算法以及算法执行路径图是否合理给出一个自己的评判，同时也能提升自己对SQL的掌控

2023-02-27 22:59:34 3871 1

原创 hive--Map local work exhausted memory

hive报错

2022-12-02 18:24:28 869

原创 Hive-- not in + in的条数不等于总条数

问题记录～

2022-10-21 17:58:45 960

原创数仓-oltp和olap

了解olap

2022-06-28 17:23:11 882

原创 hive--如何保证concat_ws内部有序

SELECT m.city_id city_code ,m.class_id ct_class_id ,regexp_replace(concat_ws(',',sort_array(collect_set(concat_ws(':',cast(row_id AS string),tea_emp_nos)))),'\\d+\:','') cla_teacher_emp_nos ,regexp_replace(concat_ws(',',sort_array(

2022-02-07 14:35:08 5317 4

原创 hive--grouping sets相关报错

文章目录missing ) at ',' near ')'，同时其报错位置指向grouping sets 括号内部SemanticException 104:1 [Error 10213]: Grouping sets expression is not in GROUP BY key. Error encountered near token ...missing ) at ‘,’ near ‘)’，同时其报错位置指向grouping sets 括号内部报错sqlselect tab1.a

2022-02-07 14:24:20 2630 1

原创 hive/spark--left semi/anti join

文章目录简介特点图例简介LEFT SEMI JOIN （左半连接）是 IN/EXISTS 子查询的一种更高效的实现。只存在 left SEMI JOIN，不存在SEMI JOIN 和 right SEMI JOISemi Join，也叫半连接，是从分布式数据库中借鉴过来的方法。它的产生动机是：对于reduce side join，跨机器的数据传输量非常大，这成了join操作的一个瓶颈，如果能够在map端过滤掉不会参加join操作的数据，则可以大大节省网络IO，提升执行效率。实现方法很简单：选取

2021-12-14 09:43:17 3974 1

原创 mysql时间格式

概览mysql数据库时间上总共有五中表示方法：它们分别是 time、date、datetime、timestamp和year。类型名称日期格式日期范围存储需求YEARYYYY1901 ~ 21551 个字节TIMEHH:MM:SS-838:59:59 ~ 838:59:593 个字节DATEYYYY-MM-DD1000-01-01 ~ 9999-12-33 个字节DATETIMEYYYY-MM-DD HH:MM:SS1000-01-01

2021-11-16 13:06:50 7769

原创 ⭐️⭐️⭐️⭐️⭐️互相关注&可能认识的人

需求六:互相关注问题假设现在有一张表，叫table_relation里面只有两个字段，from_user，to_user, 代表关注关系从from指向to，即from_user关注了to_user。求互相关注解决方式一：自关联缺点：当用户量到了亿级别，关注关系到了百亿级别，join起来的效率就会很低。select a.from_user, a.to_user, if(b.from_user is not null, 1, 0) as is_friendfrom table

2021-10-22 20:05:22 637 1

原创正则表达式基本语法

文章目录普通字符非打印字符特殊字符限定符定位符选择普通字符普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母，所有数字，所有标点符号和其他一些符号。非打印字符非打印字符也可以是正则表达式的组成部分。下面列出表示非打印字符的转义序列：字符描述\cx匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。\f匹配一个换页符

2021-10-21 20:28:15 237 1

原创多值维度及多值属性(交叉维度)

文章目录背景==事实表与维度表多对多(多值维度)====维表与维表多对多(交叉维度)==总结背景正常情况下，维表和事实表之间是一对多的关系，维表中的一行记录会连接事实表中的多行记录，事实表中的一行记录在维度表中只能关联上一条记录，不会发生数据发散的现象想法是美好的，但是事实总是不尽人意。因为现实中不但事实表和维度表之间存在多对多的关系，维度表和维度表之间也存在多对多的关系这两种情况本质是相同的，但事实表和维度表之间的多对多关系少了唯一描述事实和维度组的中间维度。对于这两种情况，一种称为桥接表的中

2021-10-19 15:16:23 2262

原创 ⭐️⭐️⭐️⭐️⭐️连续时间区间合并&间隔连续&日期交叉问题

tableA 存储了一所大学所有人的所有科目的考试成绩，共4列：学号（ stu_num ），考试科目（subject），考试成绩（ score ）等级（ level ）(共SABCD五个值)，考试时间（ time ），求：第一次考试的考试成绩等级为A，其它考试成绩等级都为B的学号。select stu_numfrom (select stu_num ,part_cnt ,sum(case when t.rank=1 and t.le.

2021-10-08 20:33:12 805 1

空空如也

空空如也