GawynKing-CSDN博客

原创数据专题导航

目录一维度模型系列二 FLink(1.16.0)源码系列Kimball维度模型之构建数据仓库先决条件-CSDN博客Kimball维度模型之数据仓库分层架构_kimball 企业级数仓架构-CSDN博客Kimball维度模型之构建数据仓库流程解析-CSDN博客Kimball维度模型之数据仓库迭代SOP-CSDN博客Kimball维度模型之数据仓库模型治理-CSDN博客Kimball维度模型之数据质量治理体系建设-CSDN博客Kimball维度模型之业务过程-CSDN博客Kimball维度模型之事务事实表-C

2024-04-29 18:54:50 364 5

原创 Kimball维度模型之构建数据仓库先决条件

成功的DW/BI项目通常共享上述一系列关键特征，而失败的项目则往往面临各种问题，其中一些问题可以总结自数据仓库专家Kimball的观点。失败的DW/BI项目因素：失败的项目往往出现在业务发起人缺乏深刻业务理解或技术发起人无法有效沟通业务需求的情况下。成功的项目通常建立在业务和技术团队紧密协作的基础上，而弱势的业务或技术发起人可能导致沟通障碍和项目目标的偏离。例子：在一个以技术为主导的项目中，业务发起人可能无法有效传达业务需求，导致最终交付的数据仓库无法满足真实业务场景。

2024-03-09 02:42:50 1103

原创 Hive/SparkSQL自定义变量使用方法介绍

一创建测试表。

2024-09-11 11:32:49 257

原创 Vue使用Codemirror和diff-match-patch实现CodeCompare功能

一依赖环境。

2024-08-22 19:12:26 259 1

原创设计模式之原型模式

原型设计模式（Prototype Design Pattern）是一种创建型设计模式，其核心思想是通过复制（克隆）现有对象来创建新对象，而不是通过传统的实例化方式。这个模式在系统中需要创建大量相似对象时非常有用，可以避免反复创建同一类对象，并且在某些情况下还能提高性能。在原型模式中，对象实现一个原型接口，该接口规定了一个clone方法，用于返回对象自身的副本。这样，客户端就可以通过克隆的方式来创建对象，而不需要直接依赖具体类的构造函数。Prototype（原型接口）：定义一个用于克隆自身的接口。

2024-08-08 21:02:35 620

原创设计模式之外观模式

外观设计模式通过提供一个高层接口，简化了复杂系统的使用，使得客户端代码更加简洁和易于维护。它隐藏了系统的复杂性，减少了子系统之间的耦合，并且可以通过引入新的外观类来适应系统的变化。外观模式在大型系统、编译器、多媒体处理和数据库操作等场景中非常有用。通过理解和应用外观模式，可以有效地提高软件系统的设计质量和可维护性。

2024-08-07 18:32:35 516

原创 Maven批量修改Java项目版本号

【代码】Maven批量修改Java项目版本号。

2024-08-05 17:07:07 250

原创 Paimon正常任务报错FileNotFoundException

调整快照过期时间后问题没有出现。

2024-08-02 13:43:55 780

原创设计模式之责任链模式

责任链模式（Chain of Responsibility Pattern）是一种行为设计模式，旨在将请求的发送者和接收者解耦，从而实现请求的动态处理。该模式将多个处理者（Handler）链接成一条链，并将请求沿着链传递，直到有一个处理者能够处理该请求为止。这样，每个处理者只需关注自己能处理的请求，而不必关心整个处理链的其他部分。适用场景当有多个对象可以处理一个请求，但并不确定哪个对象会处理该请求时。当希望在运行时动态地指定处理请求的对象时。

2024-08-01 19:07:55 252

原创 Java使用Process和ProcessBuilder调用外部任务

Process类是 Java 中用于表示和管理已经启动的操作系统进程的工具。通过Process对象，开发者可以与子进程进行交互，例如获取进程的输入、输出和错误流，发送输入数据，读取输出结果，监视进程的状态，等待进程结束以及获取退出码。它提供了方法来终止进程、检查进程是否仍在运行以及获取进程的执行结果。Process类在创建和管理系统进程时非常有用，特别是在需要与外部程序进行通信的应用场景中。常见的方法包括waitFor()和destroy()。类是 Java 中用于创建和管理操作系统进程的工具。

2024-07-22 19:25:43 995

原创设计模式之命令模式

命令模式通过将请求封装为对象来解耦请求的发送者和执行者，使代码更灵活、更具扩展性。它在需要对操作进行记录、撤销、重做以及支持事务操作时特别有用。然而，命令模式也会增加系统中类的数量，并且每一个具体的命令类都会导致代码的膨胀，因此在使用时需要权衡。

2024-07-20 21:13:48 578

原创设计模式之工厂模式

工厂设计模式（Factory Pattern）是一种创建型设计模式，它帮助我们在不明确具体类的情况下创建对象。这个模式的主要动机是将对象的创建过程与其表示相分离，目的是使系统更具灵活性和可扩展性。在面向对象编程中，我们经常需要创建对象，这些对象可能来自不同的类，并且每个类的实例化过程可能会很复杂。如果我们在代码中直接使用这些类来创建对象，代码会变得难以维护和扩展。为了克服这些问题，工厂设计模式提供了一种解决方案，通过定义一个创建对象的接口，让子类决定实例化哪一个类，从而把对象的创建与使用分离开来。

2024-07-20 21:10:33 1045

原创设计模式之单例模式

单例模式是一种创建型设计模式，确保一个类在应用程序的生命周期中仅有一个实例，并提供一个全局访问点。它通过私有构造函数、防止直接实例化，静态方法获取唯一实例，保证全局唯一性。单例模式常用于配置管理、日志记录、数据库连接池、线程池等需要共享资源的场景，具有减少资源浪费、确保状态一致性、简化全局访问等优点。特别是在多线程环境中，通过适当的同步机制，单例模式可以确保线程安全，避免实例重复创建的问题。

2024-07-20 21:08:14 505

原创设计模式之策略模式

// 私有构造函数防止外部实例化@Override@Override@Override通过策略模式，我们可以很容易实现登录用户本地缓存功能，同时如果我们想扩展缓存策略，也可以定义Redis缓存策略，只需要通过配置变更就可以让程序运行依赖新的缓存策略。策略模式通过将算法封装在独立的策略类中，使得算法的切换和扩展变得更加容易，符合面向对象设计的开闭原则。

2024-07-20 21:05:01 621

原创 vue+element-ui容器布局

外层容器。当子元素中包含或时，全部子元素会垂直上下排列，否则会水平左右排列。：顶栏容器。：侧边栏容器。：主要区域容器。：底栏容器。以上组件采用了 flex 布局，使用前请确定目标浏览器是否兼容。此外，的子元素只能是后四者，后四者的父元素也只能是。

2024-05-26 03:38:10 460

原创利用Spring Initializr初始化Springboot项目

Idea企业版本到期了，最近想设计一个数据开发平台，需要创建SpringBoot项目，本文算是个流水账，记录通过官网。创建Springboot项目的过程。

2024-05-14 12:35:43 243

原创 Flink基于开源类库实现FlinkSQL自定义UDAF类型推断异常解决

根据报错信息我们可以发现，这里因为在UDAF中引入了开源类库RoaringBitmap导致FlinkSQL UDAF编译类型推断报错，比如。那么解决方案很简单，FlinkSQL UDF要求数据类型必须与预定义的类型一致，那么我们通过注解。只需要加一个注解就可以解决问题。可以很清晰的说明是由于引用了。

2024-05-07 23:40:44 404

原创 FlinkSQL基于RoaringBitmap的UDAF实现UV指标

RoaringBitmap 是一种压缩的位图数据结构，用于存储大量稀疏或密集的整数集合。它结合了位图的优点（如快速查询和更新）和压缩技术的优势（如空间效率），能够在保持高效性能的同时，减少内存占用。在 Flink 中，UDAF 通常需要实现几个接口，如getValue()等。/*** 创建基于RoaringBitmap的累加器* @returnreturn acc;} /*** 向累加器添加元素} /*** 撤回元素} /*** 合并多个累加器} } /**

2024-05-07 23:25:06 823

原创 FlinkSQL优化器查询重写技术引发UDF翻倍调用问题分析及解决方案

Flink SQL无疑是实时数仓领域一个最耀眼的明星，他对于统一流批一体的设计可谓是居功至伟。鉴于Flink SQL在实时数仓领域的卓越表现，我们很有必要对Flink SQL在ETL场景下的表现要有深刻的理解。本文聚焦于Flink SQL UDF使用场景下由于SQL重写导致UDF翻倍调用的原理分析及对应的应对策略。

2024-05-05 23:04:49 988

原创实时数仓之Flink实现版本维表数据的Redis全局缓存

在维度模型中，数据通常被划分为维度和事实两大阵营，而维度通常是渐变(Kimball维度模型领域通常称呼这种维度为缓慢变化维度或者又被称为渐变维度)的，这种场景下，要求我们在维表建模过程中，要更多的考虑维度版本的变化，保存维度变化的维表模型可以方便在ETL和应用过程中可以让事实数据匹配自己对应的维度信息，这种场景在实时数仓构建过程中是比较常见的。通常在维度建模过程中，针对渐变维表建模的方式主要有以下几种方案：Kimball渐变维表类型2(可以认为是方案)技术方案。

2024-05-04 23:11:47 989 1

原创 Flink源码分析(13)Flink SQL客户端启动过程源码分析

Flink SQL Client启动是通过sql-client.sh脚本入口进行启动，因此本文的源码入口从sql-client.sh脚本开始。sql-client.sh跟踪sql-client.sh脚本发现该脚本实际调用了进行环境的初始化操作。下面让我们从方法入手分析这里的DEFAULT_TERMINAL_FACTORY指的是jLine客户端继续下面追踪追踪源码发现最后都会进入执行追踪发现调用了这里的parser对象是SqlMultiLineParser的实例这里的par

2024-04-29 18:30:42 335 2

原创 Flink源码分析(12)Flink SQL执行流程源码分析

Flink SQL模块的真正目的是将用户提交的SQL语句转换成Flink DataStream的形式，最后提交生成的DataStream算子到执行引擎去执行的过程。，由于executeSql()方法在内部的调用逻辑上可以覆盖sqlQuery(sql)方法，最终会汇总到同一条执行路径，因此关于Flink SQL执行流程源码分析从。调用Calcite的SQL解析模块对SQL语句执行解析，返回SqlNode对象即Calcite的SQL语法树对象。在这里完成了SQL的第二步工作，SQL校验的完成，接着调用。

2024-04-29 14:36:23 947 2

原创 Flink源码分析(11)Flink SQL执行环境初始化源码分析

上述为Flink SQL执行环境初始化相关的内容，首先了解上述源码流程对于后边理解Flink SQL的执行流程会有很大的帮助。然后创建了StreamTableEnvironment。首先来追踪planner创建过程都做了哪些操作。创建了SQL planner；因此这里入口代码选择从。

2024-04-29 01:39:44 244 3

原创 Flink源码分析(10)Flink Checkpoint源码分析

以上内容就是Flink Checkpoint源码调用流程，理解Checkpoint原理对于理解Flink应用具有较大的帮助，以上内容由本人追踪源码理解，有误欢迎指正。对于某个checkpoint，当接收到所有operator的确认消息之时，发送消息通知各个operator，checkpoint已完成。**triggerCheckpoint()**是一个重要的节点方法，通过调用。从这里开始，与从构建Dispatcher调用链结合到一起了，即代码。保存已完成和正在进行中的checkpoint的相关信息。

2024-04-28 23:23:16 705

原创 Flink源码分析(6)TaskManager启动源码分析

从堆栈追踪可以发现，Flink Per-job下的TaskManager的任务类也回到了TaskManagerRunner，与Standalne一致。可以发现，在这里创建了TaskManagerRunner，并且启动TaskManagerRunner。方法触发，通过追踪发现TaskManager的启动类为。4.2 首先创建了TaskExecutor，继续追踪。这里的堆栈调用链路比较长，但总体思想就是想RM注册。方法继续分析TaskManager的启动源码。这里启动了taskSlotTable，同时在。

2024-04-28 03:22:57 1226

实时数仓模拟流式数据源代码

数据仓库ETL工具箱

大数据之路：阿里巴巴大数据实践

大数据安装文档

unixODBC-devel-2.2.11-7.1.i386

sysstat-7.0.2-3.el5.i386

p8670579_112010_LINUX

空空如也