大数据启示录-CSDN博客

原创十万长文学Fluss----(下篇）

本次主要验证 FLuss Lookup 功能；测试过程中，也测试了 Fluss 的更新删除功能，目前还有待完善；同时测试了，当维表为空时，输出的 join 字段为null，后续补齐维表后，先前写入的数据未作补齐的场景；所以在使用该功能时，需要先将维表数据进行补全，否则无法关联；同时也引入了新的问题；当我的维表数据进行更新时应该如何斜接；当前的分区方式，需要保证在0点前更新后一天的数据，但是现实场景来看，维表的更新一般在0点后，所有可能在0点到维表更新的时间端可能无法关联的问题。提供与 Paimon 的集成。

2025-03-08 19:18:37 193

原创十万长文学Fluss----(中篇）

Offset 切换点：- Paimon 快照与 Fluss Offset 的映射是避免重复读取的核心。- 在联合读取时，Paimon 提供稳定数据，Fluss 提供实时更新，二者结合提升实时性和一致性。主键去重：- 主键去重确保每个主键只保留最新的数据。- 通过覆盖相同主键记录，保证数据的最终一致性。

2025-03-08 18:32:57 353

原创十万长文学Fluss---(上篇)

fluss 湖流一体

2025-03-08 14:35:52 842

原创大数据集群安装(10)---SuperSet汉化安装(无坑版)

在安装过程中，一路按enter或yes,在安装过程中，出现以下提示时，可以指定安装路径添加国内镜像源source ~/.bashrc 使其生效。

2025-03-01 17:10:31 598

原创大数据集群安装(9)---Prometheus+Grafana构建全链路任务监控

针对 StarRocks 集群，您可以将以上参数按照下图配置，其效果为：在满足报警条件后的 0 秒（Group wait），Grafana 会首次发送报警邮件，之后每经过 1 分钟（Group interval + Repeat interval），会再次发送报警邮件。Disable resolved message：在默认情况下，当报警涉及的项恢复时，Grafana 会再发送一次报警提示服务恢复，若您不需要这个恢复提示，可以勾选该选项禁用。当前演示的场景暂时不考虑分组，您可以使用默认的分组。

2025-02-28 03:22:42 276

原创大数据集群安装部署(8) ---Flink HA安装

错误影响：过小：频繁 Full GC 或 OOM，任务失败。错误影响：过小：内存溢出（OOM），JobManager 崩溃。错误影响：过高：超过 TaskSlots 总数会导致作业挂起。错误影响：过少：集群并行度受限，资源利用率低。错误影响：若设置为 localhost，其他节点无法连接，导致集群无法启动。错误影响：配置错误会导致 TaskManager 无法注册，作业提交失败。bind-port 配置错误：可能引发端口随机绑定，导致无法访问。错误影响：地址或端口错误会导致 HA 无法启动，集群单点故障。

2025-02-28 01:26:38 149

原创大数据集群安装部署(7)---DolphinScheduler集群

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。

2025-02-16 17:41:38 311

原创大数据集群安装部署(6)---Hive HA安装

cd /opt/module/bigdata/hive-4.0.1/lib目录下，并拷贝到其它两台机器上。修改hive-env.sh.template为hive-env.sh。创建配置文件 vi hive-site.xml。

2025-02-16 17:19:42 134

原创大数据集群安装部署(5)---Paimon集成

目前Paimon catalog和StarRocks集成只支持查询，不支持写入、创建数据库等.故此处使用Flinksql写入数据到paimon。5: 查询Paimon word_count 表。

2025-02-16 17:10:06 507

原创大数据集群安装部署(4)---StarRocks存算分离安装部署（基于HDFS）

如果 HDFS 集群开启了高可用（High Availability，简称为“HA”）模式，则需要将 HDFS 集群中的 hdfs-site.xml 文件放到每个 FE 的 $FE_HOME/conf 路径下、以及每个 BE 的 $BE_HOME/conf 路径（或每个 CN 的 $CN_HOME/conf 路径）下。注意：需要将core-site.xml,hdfs-site.xml,放置到be 的conf下，且分别在fe.conf和cn.conf配置好hadoop环境变量。建议您将系统资源上限调大。

2025-02-16 17:00:07 538

原创大数据集群安装部署(3)---Yarn HA安装部署

依赖中commons-cli版本过低导致运行时找不到新版本的方法。排除Hadoop中commons-cli依赖，并添加高版本。访问：http://bigdata01:8081/检查yaml文件格式是否正确。

2025-02-16 11:16:37 148

原创大数据集群安装部署(2)---hadoop HA安装部署

hadoop 3相关的端口。

2025-02-16 09:44:08 137

原创大数据集群安装部署(1)---zookeeper安装

大数据hadoop体系,非云原生环境下HA模式都需要依赖于zookeeper，故第一篇安装就从zookeeper 开始。本文以三台机器为例，详细展示每一个组件的安装过程，以及遇到的问题和排查。

2025-02-16 08:11:22 188

原创使用paimon-flink-action 同步 postgresql到hive

为确保对较早 LSN 偏移量的访问以进行作业恢复，我们通过 scan.lsn-commit.checkpoints-num-delay （默认值为 3 ）检查点延迟 LSN 提交。当配置选项 scan.incremental.snapshot.enabled 设置为 true 时，此功能可用。一个典型场景是将表‘source_table’拆分为模式‘source_schema1’，‘source_schema2’……，然后您可以将所有‘source_table’的数据同步到一个 Paimon 表中。

2025-02-16 07:07:31 418

原创 Iceber学习之路（1）---介绍

Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式可以理解为元数据以及数据文件的一种组织方式，处于计算框架（Flink，Spark…）之下，数据文件之上。可以跟一些主流的框架做集成。

2025-02-15 21:34:11 752

原创云原生之Flink Native Kubernetes+Dinky 实时计算平台架设实践

云原生flink流计算平台解决方案验证该架设方案全部基于云原生k8s,通俗讲就是 flink任务跑在k8s上。

2025-02-15 19:44:20 360 1

原创 Paimon-flink-action同步数据到Paimon

本文主要实现使用paimon自带的paimon-flink-action工具，同步mysql数据到StarRocks验证。paimon-flink-action是一个封装了多种高级功能的Apache Paimon的Flink action jar包。这个包内部包含了诸如merge into、compact、delete、drop_partition等功能，主要用于支持复杂的数据操作和数据处理任务。

2025-02-15 19:27:36 808

原创 Flink CDC+Dinky整库同步到paimon

本文主要讲述的是通过flink CDC +Dinky 同步mysql数据到paimon中自动建表的实践。Dinky通过定义CDCSOURCE语法，可以直接自动构建一个整库入仓入湖的实时任务，避免了大量的数据库连接和DDL编写，同时采用多source合并的优化策略，减少了同一作业中的source数量，避免了Binlog的重复读取，从而减轻了源库的压力。从而减轻了源库的压力。CDCSOURCE 语句用于将上游指定数据库的所有表的数据采用一个任务同步到下游系统。

2025-02-15 19:20:04 687

原创 Flink CDC pipline实践（2）--- 整库同步Paimon 按天分区

【代码】Flink CDC pipline（2）--- 整库同步Paimon 按天分区。

2025-02-15 19:10:10 675

原创 Flink CDC pipline实践（1）---整库同步到StarRocks

flink cdc pipeline+dinky 整库同步数据到starrocks

2025-02-15 19:02:17 838 2

原创 Flink & Paimon & StarRocks & Dinky 湖仓一体分层验证

本文主要从0到1，构建湖仓一体的完整demo验证

2025-02-15 15:52:29 1843 2

原创 Flink性能优化小结

可以通过开启缓冲消胀机制来简化 Flink 网络的内存配置调整。您也可能需要调整它。如果这不起作用，您可以关闭缓冲消胀机制并且人工地配置内存段的大小和缓冲区个数。针对第二种场景，我们推荐：使用默认值以获得最大吞吐减少内存段大小、独占缓冲区的数量来加快 checkpoint 并减少网络栈消耗的内存量。

2024-01-10 19:47:26 2416

原创大数据组件优缺点

doris/starrocks优缺点？

2023-07-31 22:35:13 608 1

原创 CDH优化大全

写数据时，在场景允许的情况下，最好使用Put List的方式，可以极大的提升写性能。设置参数的路径如下：在CDH Manager页面中，选择“服务管理 > HDFS > 服务配置”，将“参数类别”设置为“全部配置”，并在搜索框中输入参数名称。在CDH Manager系统中，选择“服务管理 > HDFS > 服务配置”，“参数类别”类型设置为“全部配置”。在CDH Manager页面中，选择“服务管理 > HDFS > 服务配置”，将“参数类别”设置为“全部配置”，并在搜索框中输入参数名称。

2023-07-31 22:34:27 886

原创 sparksql 自动DataSourceV2源

明细模型底层使用 LSM Tree 数据结构进行存储，我们都知道 LSM Tree 是一个写友好的数据结构，在 StarRocks 数据存储层，选择了一个两层结构的 LSM Tree，减少了 compaction 对系统的压力，也减少了 write stall 的影响。在分析统计和汇总数据时，聚合模型能够减少查询时所需要处理的数据，提升查询效率。建表时，支持定义主键和指标列，查询时返回主键相同的一组数据中的最新数据。在性能方面，从全内存的主键索引升级为持久化的主键索引，解决主键模型内存占用的问题。

2023-07-31 22:33:35 653

原创关于数据仓库的一些梳理

主题虽然在信息包图中只占据标题的位置，但是却是信息打包方法中最重要的部分，当主题定义好之后，数据仓库中的逻辑模型也就基本成形了。数据仓库中的数据存储结构也需要在逻辑模型的设计阶段完成定义，需要向里面增加所需要的信息和能充分代表主题的属性组。而在进行数据仓库设计时，一般是一次先建立一个主题或企业全部主题中的一部分，因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。确定主题边界实际上需要进一步理解业务关系，因此在确定整个分析主题后，还需要对这些主题进行初步的细化才便于获取每一个主题应该具有的边界。

2023-07-31 22:32:58 623

原创 Flink几道经典编程场景

从keyBy开始处理，设置1天的滑动窗口，步长为5，在process中使用if判断数据是不是今天的来进行累加，这样过了00:00后，昨天的数据不会被统计，也就实现了业务要求的5分钟输出一次从凌晨到当前时间的统计值.Flink是一个分布式计算框架，可能计算是分布在很多节点上同时进行的，如果计算在多个节点进行，需要对结果进行合并，这个merge方法就是做这个工作的，所以入参和出参的类型都是中间结果类型ACC。UV(独立访客)：即Unique Visitor,访问您网站的一台电脑客户端为一个访客。

2023-07-31 22:32:11 331

原创几道sql面试题

注意：其中的交叉日期，比如vivo品牌，第一次活动时间为2021-06-05到 2021-06-15，第二次活动时间为 2021-06-09到 2021-06-21其中 9号到 15号为重复天数，只统计一次，即 vivo总打折天数为 2021-06-05到 2021-06-21共计 17天。将一条数据拆分成两条(id,dt,p)，并且对数据进行标记：开播为1，关播为-1，1表示有主播开播在线，-1表示有主播关播离线，其中dt为开播时间或者关播时间。需要用到开窗函数：sum() over(…

2023-07-31 22:31:30 415

原创大数据面试问题总结

Shuffle reduce task 数量小于spark.shuffle .sort.bypassMerge Threadshold参数的值小于200，不开启，溢写磁盘不需要排序，小于等于的时候是开启的。面试题58：大促场景下实时链路数据积压，rps为100w，导致数据大屏不动了，上线前该如何保障，临时处理该如何操作，兜底方案该如何做？面试题73：如何解决数据建模中的一些挑战，例如复杂的业务规则、数据粒度的把控等？面试题73：如何解决数据建模中的一些挑战，例如复杂的业务规则、数据粒度的把控等？

2023-07-31 22:30:49 1963 1

原创 flink读写hudi

6: flink table api写入hudi数据，(数据来源于table表)

2023-07-31 22:30:11 915 1

原创数仓之归因分析

在用户全生命周期旅程中，用户所做的事情是碎片化的，对于业务来讲，每天都会面临大量的用户数据以及用户复杂的行为路径，用户在不同生命周期阶段会产生各种触点，涉及多种设备(智能手机、平板电脑、个人电脑等)、平台(手机vs桌面网页)和渠道(付费、电子邮件、社交等)，这些外因对用户产生了怎样的影响，促使用户最终完成转化？当线性归因时，按上述1，2步骤后找到每个目标事件窗口期内的待归因事件并根据时间升序排序，计算链路上的总数量，并平均分配链路上每个事件的贡献比例，则同时可计算链路上每个事件平均贡献的总金额。

2023-07-31 22:18:02 933 1

原创一文道尽数据中台方法论

一个企业体量不大时，对于业务需求我们可以直接由底向上直接开发，由原始表深度加工产出一张表对外提供服务，针对不同的业务需求我们都这样实现，这就形成烟囱式开发，随着企业体量变大，业务变多，这种烟囱式开发会导致我们的数据无法复用，做很多重复的开发，这时我们可以构建一套数据分析平台，这里涉及数据采集、数仓构建、数据分析、数据可视化展示等，由于我们构建了统一数仓平台，几乎解决烟囱式开发问题。最后，Range可以基于元数据中心提供的API接口，获取标签对应的表，然后根据标签更新表对应的权限，实现基于标签的权限控制。

2023-07-31 00:21:29 4762 1

原创流批一体的一点思考

并且Unified DataStream针对Unbounded场景，在磁盘I/O访问，序列化和反序列化做了优化，使得Unbounded和Bounded的效率、可用性、易用性都得到很大提升。结果视图需要支持低延迟的查询分析，通常需将数据结果存储到列存分析系统，可使用doris/starrocks和Presto/Trino。因为它原生分成了两层，可以根据用户的使用场景和批流的不同访问模式，来提供两套不同的 API。首先在计算层，Pulsar Broker 不保存任何状态数据、不做任何数据存储，称之为服务层。

2023-07-29 00:40:11 517

原创 sparksql参数调优

所以就会出现，即使你设置了spark.sql.files.ignoreMissingFiles的情况下，仍然报FileNotFoundException的情况，异常栈如下, 可以看到这里面走到了HadoopRDD，而且后面是org.apache.hadoop.hive.ql.io.parquet.read.ParquetRecordReaderWrappe可见是查询一张hive表。上面的两个参数在分区表情况下是针对分区路径存在的情况下，分区路径下面的文件不存在或者损坏的处理。

2023-07-29 00:37:41 2317

原创大促场景系统稳定性保障实践经验分享

而选项的构成，便是我们的业务&系统预案。再给大家快速的介绍一些稳定性建设的一些思路，稳定性工作的本质无外乎是发现风险和消除风险的过程，风险来自于本身系统和产品遗留的潜在风险、长期使用导致的系统腐坏风险、新功能发布和系统升级引入的风险、大促之类的活动带来的风险等，我们的稳定性工作就是让这些风险可控。因此进行大促稳定性监控梳理时，可以先脱离现有监控，先从核心、资损链路开始，按照业务、应用（中间件、JVM、DB）、系统三个层次梳理需要哪些监控，再从根据这些索引找到对应的监控告警，如果不存在，则相应补上；

2023-07-29 00:36:44 1660

原创 StarRocks 参数详解

StarRocks参数详解

2023-07-29 00:35:57 6251 1

原创大数据集群迁移整理

（3）借助公司大数据团队提供的binlog解析采集工具，如基于开源的canal binlog parser模块二次开发的binlog接入工具，通过MySQL主从复制协议去业务db捕获增量变更数据（模拟MySQL slave，通过socket连接去拉取和解析数据，对于MySQL的性能损耗很小，按照MySQL官方的说法，损耗为1%），解析成json格式，写入kafka，最终由业务消费数据，按照自己需求写入hive，hbase，es等等异构数据源中；（1）修改业务代码，在写老库的地方，加上一句对新库的写操作；

2023-07-29 00:35:14 4042

原创数仓规范

对于每一个报表和数据产品中涉及的指标，可以按照以下格式进行收集和整理：清晰指标名称、明确业务口径、确定数据来源等，对于口径相同的，应该去除重复，关联的应用应该合并。首先，要形成一个全局业务口径一致的指标字典，让使用指标的人，可以通过指标字典，快速了解指标的业务含义和计算过程，不会对指标口径产生歧义。ODS层，是最接近数据源中数据的一层，为了考虑后续可能需要追溯数据问题，因此对于这一层就不建议做过多的数据清洗工作，原封不动地接入原始数据即可，至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。

2023-07-29 00:33:58 2075

原创数据库原理

查询优化器的核心任务是生成一个 “最佳的”（执行 Cost 最低）的分布式物理执行计划，查询的数据量越大，查询的 SQL 越复杂，查询优化器的意义越大，因为不同的物化执行计划，执行时间可能相差成千上万倍。每个 Fragment 可以有不同的并行度。开源数据库会越来越模块化，打造一个高性能的数据库原型会越来越简单，下图是一个利用 DPA 和一些开源系统打造的数据库架构示意，可能只需要 1 个或者几个人月，就可以打造出这个原型，并且在 SSB，TPC-H,TPC-DS 等标准测试集上取得不错的性能。

2023-06-29 18:15:00 385

原创生产环境的性能难题

低基数 Group By + 高基数去重。

2023-06-29 18:11:06 162

空空如也

空空如也