一个还有头发的年轻程序员-CSDN博客

原创 SparkSQL优化大全

当然，Spark性能调优有很多配置，这里我们只介绍简单可以快速解决问题的。首先，很多时候较好的代码可以避免90%的问题，那么这就需完整对Spark体系的认知。然而，很多时候Spark执行失败，对于些这些急需解决的失败问题的处理，就没有那么多时间进行系统化的学习。那么就可以快速参考这篇文件，对出现的场景进行匹配并尝试优化。对于Spark执行较慢的任务来说，我们首先应该明白，Spark的性能杀手主要在Shuffle和Join。

2024-06-15 17:07:25 1885

原创 Hive 动态分区小文件过多问题优化

一、问题描述为了支撑相应的业务需求，本次生产环境通过Hive SQL来完成动态插入分区表数据的脚本开发。但是，动态分区的插入往往会伴随产生大量的小文件的发生。而小文件产生过多的影响主要分为以下两种情况：（1）从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。（2）在HDFS中，每个小文件对象约占150byte，如果小文件过多会占用大量内存。这样NameNode内存容量严重制约了集群的扩展。

2024-04-14 14:07:53 1229

原创 Flink的简介以及基本概念

有界流和无界流有状态的流处理。

2024-03-12 23:31:31 2246

原创新一代数据湖 Apache Paimon

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。这是查询和写入性能之间的权衡。正如您所看到的，不同的Sorted Run可能具有重叠的主键范围，甚至可能包含相同的主键。查询LSM树时，必须合并所有Sorted Run，并且必须根据用户指定的合并引擎和每条记录的时间戳来合并具有相同主键的所有记录。

2024-03-09 00:09:22 1794

原创数仓建模理论

事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用（维度表外键）以及该业务过程的度量（通常是可累加的数字类型字段）。

2024-03-07 17:14:52 891

原创数据治理知识分享

数据治理是一种系统化的方法，旨在管理企业中数据的质量、一致性、安全性和完整性。它涉及一系列策略、流程、技术和工具，帮助组织有效地收集、存储、访问和利用数据。

2024-03-06 23:32:25 1394

原创 hive count(distinct )的优化手段

背景: 近期做了ABT项目,基于公司的营销系统的push渠道去做AB测试,把人群划分为A分支和B分支,每个分支采用不同的算法模型,去查看其对应A分支和B分支带来的uv转化和对应的订单转化.优化手段:优化手段: 将去重指标count(distinct xxxx) 拉出去单独计算, 这一部分去重指标改为group by再向上聚合,再union all 回去.当要统计某一列去重数时，如果数据量很大，count(distinct) 就会非常慢，原因与 group by 类似，

2024-03-06 23:30:17 568

h494411的博客