云祁-CSDN博客

原创数仓实践：超大表同步，别再凭直觉选 SeaTunnel + Hive 了

分片多了以后小文件是另一个问题：1024 张源表，每次同步写几个文件，攒下来小文件数量很快就到了让查询性能崩掉的量级，然后要专门跑 Compaction 任务来清理，而且清理过程还可能和正在跑的查询互相打架。还有一个更隐蔽的：Hive 写入过程中没有读写隔离，如果下游报表恰好在 Merge 的中间时刻开始跑，读到的可能是只写了一半的分区——数据撕裂，复现困难，让人怀疑人生。这个判断失误了，数据会静悄悄地错，而不是直接报错。你的数据量是可预期的，你的调度窗口是够用的，你的数据主要是 INSERT。

2026-05-28 22:57:31 348

原创从 Prompt 到 Skills：AI 能力工程化的范式跃迁

这三个条件叠加，意味着 Skills 已经从"PPT 概念"，变成"有人在生产环境天天用的东西"。如果说官方仓库更偏"基础能力组件"，Awesome 列表更像"目录索引"，那 Claude Skills Marketplace 则是一个"装完就能跑流程"的工作流合集。围绕 Skills 搭建起来的，不只是工具箱，而是在构建一个可生长的 "集体大脑" ——每一个被沉淀的 Skill，都是组织知识的一次结晶。之后的时代，是"谁会写、会运营 Skills，谁在真正定义人与 AI 的协作方式"。

2026-05-24 20:59:34 368

原创 2026年什么样的数据开发最值钱？

因为，数据开发的魅力，从来不是 "我能写多复杂的 SQL"，而是 "我用数据解决了多重要的问题"。LLM时代的数据开发，不是关于 "会不会被替代"，而是关于 "如何更好地创造价值"。这个层次的数据人，已经不再只是 "数据开发"，而是 "用数据重新定义商业模式"。很多数据架构师容易犯的错误是 "我觉得业务需要"，而不是 "业务真正需要"。大部分公司需要的是 "会用LLM的工程师"，而非 "研发LLM的算法工程师"多问 "为什么"：这个表为什么这样设计？1.1 本质不是 "开发数据"，而是 "用数据解决问题"

2026-01-10 16:04:01 442

原创大模型提升数据开发效率实践指南

而大模型处理自然语言是天生优势，因此在需求理解环节，大模型的提效最为显著，相当于给自己一个提纲，顺着提纲读 PRD 快多了。与其焦虑，不如行动。LLM 时代的数据开发，不是关于"会不会被替代"，而是关于"如何更好地协作"。拥抱变化，善用工具，让技术释放人的创造力，这才是我们的目标。：云祁，某大厂资深数据工程师，经历过数据中台的坑坑洼洼，踩过无数次坑。："道路千万条，安全第一条，测试不规范，复盘两行泪"。也就是说，人类专家负责构建业务流程，大模型来完成流程环节，比幻想大模型一下子做成什么事情，可行得多。

2026-01-04 10:20:23 627

原创关于数据湖 Paimon，万字长文带你快速入门

从早期的Hive到现在的Iceberg、Hudi，再到今天我们要深入探讨的 Apache Paimon，数据湖技术一直在不断演进。Apache Paimon（前身为Flink Table Store）是由阿里巴巴开源并贡献给Apache基金会的新一代流式数据湖存储，它在统一批流处理、实时数据更新等方面有着独特的优势。✅ 实时数据仓库（秒级延迟） ✅ CDC数据同步（MySQL、PostgreSQL） ✅ 流批一体场景（Flink为主） ✅ 高频更新场景（电商订单、用户画像）

2025-12-21 22:35:02 1160

原创数据治理这件事，90% 的公司都做错了

云祁，某大厂资深数据工程师，经历过数据治理的坑坑洼洼，踩过无数次坑。公众号「云祁的数据江湖」主理人，专注分享接地气的数据工程实战。真正好的治理是润物细无声的，它不会天天被提起，但所有人都离不开。大多数公司的数据治理失败，不是因为技术不行，而是从一开始就。一、为什么一提"数据治理"，大家第一反应是抵触？"数据治理"这四个字，在很多公司已经被用坏了。二、血缘 / 口径 / 质量：三大"治理幻觉"系统"看起来很安全"，实际没人真正信数据。先解决"用得顺不顺"，再谈"规不规范"。

2025-12-16 21:57:49 1623

原创数据治理这件事，90% 的公司都做错了

云祁，某大厂资深数据工程师，经历过数据治理的坑坑洼洼，踩过无数次坑。公众号「云祁的数据江湖」主理人，专注分享接地气的数据工程实战。真正好的治理是润物细无声的，它不会天天被提起，但所有人都离不开。大多数公司的数据治理失败，不是因为技术不行，而是从一开始就。一、为什么一提"数据治理"，大家第一反应是抵触？"数据治理"这四个字，在很多公司已经被用坏了。二、血缘 / 口径 / 质量：三大"治理幻觉"系统"看起来很安全"，实际没人真正信数据。先解决"用得顺不顺"，再谈"规不规范"。

2025-12-16 21:57:49 596

原创 Spark SQL 深度优化实战指南：从原理到生产的完整方法论

哈喽，我是云祁，好久不见～今天和大家聊聊 Spark SQL 优化，结合深度扩展的经验，增加了原理剖析、生产实践案例、性能对比数据和系统化诊断方法。错误 3：org.apache.spark.shuffle.FetchFailedException。：某电商公司的日志分析任务，数据量从凌晨的 100GB 到晚上的 2TB 波动巨大。：Spark SQL 的优化不再是简单的"调参游戏"，而是需要理解。：某互联网公司的用户行为分析，两张 10TB 的表 Join。

2025-12-10 22:06:31 1330

原创 Spark SQL 深度优化实战指南：从原理到生产的完整方法论

哈喽，我是云祁，好久不见～今天和大家聊聊 Spark SQL 优化，结合深度扩展的经验，增加了原理剖析、生产实践案例、性能对比数据和系统化诊断方法。错误 3：org.apache.spark.shuffle.FetchFailedException。：某电商公司的日志分析任务，数据量从凌晨的 100GB 到晚上的 2TB 波动巨大。：Spark SQL 的优化不再是简单的"调参游戏"，而是需要理解。：某互联网公司的用户行为分析，两张 10TB 的表 Join。

2025-12-10 22:06:31 1046

原创关于数据湖 Paimon，万字长文带你快速入门（上）

For fields.<field-name>.sequence-group, valid comparative data types include: DECIMAL, TINYINT, SMALLINT, INTEGER, BIGINT, FLOAT, DOUBLE, DATE, TIME, TIMESTAMP, and TIMESTAMP_LTZ. sequence-group支持以上这些类型。当 n=1 的时候，对生成 changelog 的延迟没有特别大的影响。

2025-03-15 13:39:40 1609

原创关于数据湖 Paimon，万字长文带你快速入门（上）

For fields.<field-name>.sequence-group, valid comparative data types include: DECIMAL, TINYINT, SMALLINT, INTEGER, BIGINT, FLOAT, DOUBLE, DATE, TIME, TIMESTAMP, and TIMESTAMP_LTZ. sequence-group支持以上这些类型。当 n=1 的时候，对生成 changelog 的延迟没有特别大的影响。

2025-03-15 13:39:40 990

转载七年磨一剑！《大数据之路2》全新升级重磅上市（文末赠书）

点击上方 "云祁的数据江湖"关注,星标一起成长为什么要读“科技史”？约400年前，英国哲学家弗兰西斯·培根，这位科学时代的预言家给出--文末赠书--7年前，《大数据之路：阿里巴巴大数据实践》一书横空出世，当时正值大数据概念及其所代表的技术力量蓬勃发展的时期，各行各业开始感受到数据规模不断增长所带来的压力，以及面临的挑战和机遇。这本书凝聚了阿里巴巴在大数据实践过程中积累的经验、教训和方法，在业界掀...

2025-03-04 08:22:23 694

转载数仓建模：一种动态字段表模型设计方法与应用

0 引言在当今数据驱动的业务环境中，数据的结构和需求往往是多变的。尤其是在一些新兴的业务场景或快速迭代的项目中，传统的固定字段表结构可能无法满足灵活性和扩展性的要求。此时，动态字段表模型的设计就显得尤为重要。以下将详细介绍一种基于实际项目经验的动态字段表模型设计方法。1 问题背景电商公司搭建一个商品管理系统，该电商公司销售的商品种类繁多，涵盖了电子产品、服装、家居用品、食品等多个品类。每个品类的商...

2025-03-03 08:22:37 546

转载如何用大模型提升数据开发各个环节效率

如何用大模型提升数据开发各个环节效率一点感受，大模型做一个完整的技术方案，很难；但如果大模型改造我们工作流程中的每一个环节，大有可为。也就是，人类专家负责构建业务流程，大模型来完成流程环节，比幻想大模型一下子做成什么事情，可行的多。这篇文章从数据仓库的日常研发视角出发，分析大模型可以对每一个环节做哪些效率的提升。## |0x00 推理模型和非推理模型的区别我们都知道要用DeepSeek的R1，这...

2025-03-01 08:22:23 312

转载从1到2: 我的大数据成长之路

我是大熊！某大厂数据负责人。文末分享：我如何5年就带团队了？截图是我重读《大数据之路1》做的笔记。因为2看了一些，它已经发展到走出阿里的阶段，视野更开拓，而我越觉得自己基础不扎实，所以才有此重读。读书的意义是把前辈的经验，映射到自己的环境去解决实际问题。首篇：日志采集它有什么资格放首位？我问自己。业界公认电商平台玩的就是流量，核心就是做流量分配，因此我回看了阿里24Q4财报。淘天集团Custome...

2025-02-27 08:22:26 253

原创超全面数仓建设规范指南（干货建议收藏）

比如在 OLTP 系统中，存在商品表和类目表，且商品表中有冗余的类目表的属性字段，假设对其类目进行更新，则必须更新商品表和类目表，且由于商品和类目是一对多的关系，商品表可能每次需要更新几十万甚至上百万条记录，这是不合理的。例如，商品是否在线，即在淘宝网站是否可以查看到此商品，是重要的查询约束的条件，但是无法直接获取，需要进行加工，加工逻辑是：商品状态为0和1且商品上架时间小于或等于当前时间，则是在线商品；例如，在查询请求中，获取某类目的商品、正常状态的商品等，是通过约束商品类目属性和商品状态属性来实现的；

2025-02-26 21:11:36 1008

原创超全面数仓建设规范指南（干货建议收藏）

OneData：包括一整套数据规范定义标准、数据模型架构设计最佳实践和产品工具体系来保障数据资产标准化、规范化建设。旨在面向各行各业大数据建设、管理及应用诉求，通过输出实战沉淀的大数据建设体系OneModelOneIDOneServic（产品、技术、方法论），一站式提供集数据引入、规范定义、数据建模、数据研发、数据萃取、数据资产管理和数据服务的全链路智能数据构建及管理服务，助力企业打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系。

2025-02-26 20:36:20 307

原创保姆级教程！DeepSeek神级指令拆解！小白秒变提示词大师！

????前言：为什么你总在AI对话中碰壁？「明明问的是同样问题，同事3分钟出方案，你却得到一堆车轱辘话？」「看别人用AI写爆款文案、做数据分析，自己却连基础指令都组织不好？」这不是你的问题！90%的新手都不知道：❗ AI工具存在「暗黑模式」→ 不会说「咒语」就只能得到平庸答案❗ 提问方式决定命运 → 高手都在用「结构化指令模板」欢迎大家关注，一起学习交流????第一章：速成心法——指令工程师的3大核心法则...

2025-02-25 08:22:27 726

转载再谈谈 “数据价值” 这个话题

前言这次还是想聊聊数据价值这个话题，最近群友问的比较多，甚至遇到过的cto/cdo（数据总监）也在苦于如何展现价值，如何向更大的老板汇报，去呈现价值也是大家都在思考的一件事，之前也讲过一期简单的数据价值内容，可能细节案例还不够，那我们这一期还是谈一下数据价值，搞清楚它，以及在总结时，面试时如何说数据价值。价值概念价值可以理解为你对团队创造贡献或你能为团队创造的贡献，例如某大厂专家岗加入某小厂可以带...

2025-02-24 20:22:38 221

转载无缝集成 MySQL，解锁秒级数据分析性能极限

阿里妹导读在数据驱动决策的时代，一款性能卓越的数据分析引擎不仅能提供高效的数据支撑，同时也解决了传统 OLTP 在数据分析时面临的查询性能瓶颈、数据不一致等挑战。本文将介绍通过 AnalyticDB MySQL + DTS 来解决 MySQL 的数据分析性能问题。引言在应对大规模业务数据的在线统计分析需求时，传统数据库常常难以满足高性能和实时分析的要求。随着业务数据的不断累积，数据量迅速膨胀，虽然...

2025-01-09 20:22:30 447

原创 2024：尽我所能，敬我不能

2024 年即将划上句号，回望过去一年的风雨兼程。最核心的关键词，是体验、充盈与幸福，这三个词充满了我的 2024。刚提笔时，脑海里还是有点空白，想了想，既然是自己的年终复盘，不就是自己和自己说说话嘛。不如翻开相册和朋友圈来写，不就是这一年发生的点滴了？⏱ 回顾 20241 月关键词...

2024-12-31 20:22:18 1452 2

原创 DAMA CDGP：论述题真题解析之元数据篇

参考答案 : 第一问元数据管理不善容易导致以下问题:冗余的数据和数据管理流程；重复和冗余的字典、存储库和其他元数据存储；不一致的数据元素定义和与数据滥用的相关风险；元数据的不同版本相互矛盾且有冲突，降低了数据使用者的信心；怀疑元数据和数据的可靠性。2022-07一．问题简述元数据：（1）元数据管理不善带给企业的影响（风险）；（2）结合企业情况设计元数据架构（设计元数据管理系统）二、问题解析元数据是...

2024-12-10 20:22:19 1205

原创数仓解惑：维度建模不是万金油

数据仓库的演变与目的数据仓库的最初目的是为了数据分析，将企业各系统的数据汇总到一个离线仓库中，以便进行大规模的查询和分析，从而获得业务指标，辅助决策。随着信息化和数字化的发展，数据仓库逐渐演变为数据湖，汇聚了企业的所有数据，其应用场景也不再局限于数据分析。数据仓库的分层理论在数据仓库的实践中，我们通常遵循以下分层理论：ODS（操作数据存储）：作为采集数据层，保持数据原貌，基本不进行加工。CDM（公...

2024-12-09 23:15:11 1058

转载数仓实践：数仓中的实际问题与解决方案

整理：数据学堂小 A 进入一家网约车出现服务公司，负责公司数仓建设，试用期主要一项 OKR是制定数据仓库建设规划；因此小 A 本着从问题出发为原点，先对公司数仓现状进行一轮深入了解，理清存在问题，然后在以不忘初心原则提出解决问题方案。相信很多数据建设者在公司发展某个阶段时都会遇到类似小 A 公司问题，也在思考或已经在执行落地解决这些问题方案，希望通过小 A 案例可以给大家一些启发。下面先看看小 A...

2024-11-26 21:38:57 434

原创数仓实践：维度建模不是万金油

最近有些抵触写东西，总感觉自己没有清晰的表达思路和专业的知识体系，写的东西都是更偏向个人经验的一家之谈；之前总想着把文章结构做好，图片做好，表达做好，这样能更容易让大家理解，可以让更多的人接受所要表达的观点；但是，这样写太痛苦了，似乎是为了达到某种结果而刻意为之。最终还是回归表达的本质，传播思路和想法，把这个说清楚就可以了，不管是三言两语还是长篇大论，让看到的人能知道有这么一种观点和想法即可，引发思考之后接受与否已经与表达者无关了；特别是一些偏向专业的内容，只需要让有专业背景和思考的受众了解即可；

2024-11-25 21:13:27 234

原创数仓实践：数据开发需要了解的 BI 数据分析方法

数仓开发经常需要与数据表打交道，那么数仓表开发完成之后就万事大吉了吗？显然不是，还需要思考一下如何分析数据以及如何呈现数据，因为这是发挥数据价值很重要的一个方面。通过数据的分析与可视化呈现可以更加直观的提供数据背后的秘密，从而辅助业务决策，实现真正的数据赋能业务。帕累托分析方法与数据可视化RFM分析与数据可视化波士顿矩阵与数据可视化本文主要介绍了数仓开发应该要了解的常见的数据分析方法，主要有三种：帕累托分析、RFM分析以及波士顿矩阵分析。

2024-10-09 21:25:39 370

转载为什么全网都在看衰数据中台，数据中台是陷阱，还是利器？

今天的文章，我们聊一聊：为什么全网都在看衰数据中台？“数据中台是大数据的下一站”“还没有构建数据中台，你的企业 OUT 了”“为什么说建设数据中台是企业数字化转型的必要环节”...相信很多人，在前两年都在网上看过类似的文章，没错，前两年数据中台的地位很高，说它是“当红炸子鸡”一点也不为过。可疫情过后，一切都变了。现在，我们看到的网上信息都在唱衰数据中台，从被各界追捧到人人唾弃，数据中台发生了什么？...

2024-08-27 09:09:43 927

转载聚焦电商场景，详解抖音集团埋点及归因分析方案

导读本文将聚焦电商场景，介绍抖音集团埋点历程、电商场景解决方案、归因实践及其收益等模块，旨在为数据技术人员在埋点后数据加工过程中所遇到的问题提供有益思路。今天我会从三个模块来给大家介绍下整体的思考：1.电商业务现状与问题2.解决方案3.总结规划分享嘉宾｜张雷雷抖音集团电商数据架构师编辑整理｜冯蕾蕾内容校对｜李瑶出品社区｜DataFun01解决方案1. 埋点历程（1）无日志采集2013 ...

2024-08-26 21:09:47 1303

原创 DAMA CDGP：论述题真题解析之数据安全篇

真题一一、问题简述（考点：数据安全）企业应该具备什么样的数据安全能力哪些个人隐私数据需要脱最处理数据脱敏的常用方法二、问题解析信息安全、网络安全、数据安全、和系统安全等个人信息、敏感信息、法律规定的信息等主要考察九种脱敏方法三、Answer3.1 数据安全能力包括：信息安全，包括：脆弱性、威胁、风险、风险等级、数据安全组织、安全流程、数据完善性、加密、混淆／脱敏网络安全，包括：后门、机器人／僵尸、...

2024-08-23 22:59:47 1606

原创 DAMA CDGP 论述题真题解析一：数据安全篇

数据安全治理得需要有足够的资金支持，面向系统、企业内保持方案一致，建立安全战略等，主要包括：数据安全分析现状，数据安全活动、以及基于数据生命周期等数据安全管理三个维度。可通过混淆处理（变得模糊或不明确）或脱敏（删除、打乱或以其他方式更改数据的外观等）的方式来降低数据可用性，同时避免丢失数据的含义或数据与其他数据集的关系。在数据和信息安全实施过程中，首先要评估组织当前的数据状态，确定需要保护的数据范围。因此，不能公开提供服务。在数据和信息安全实施过程中，首先要评估组织当前的数据状态，确定需要保护的数据范围。

2024-08-22 20:58:13 772

原创数仓实践：有关数仓架构的一些设计

在早期数仓建设中，大多以批处理的方式为基线进行开发，随着业务的发展，需求对实效性和准确性要求越来越高，于是有了实时数据处理的流程，随之出现了 Lambda、Kappa 以及 Kappa+ 常见的数仓架构。

2024-08-18 15:56:34 432

原创数仓解惑：什么是主数据？

主数据（MasterData）：在企业中用来定义业务对象的、具有持续性、非交易类的数据。相对于交易类数据，主数据是相对稳定的数据。

2024-08-12 23:13:43 598

原创数仓解惑：一致性维度和一致性事实

在 Kimball 的维度建模的数据仓库中，关于多维体系结构（MD）有三个关键性概念：总线架构（Bus Architecture），一致性维度（Conformed Dimension），一致性事实（Conformed Fact）。多维体系结构(总线架构) 数据仓库领域里，有一种构建数据仓库的架构，叫 Multidimensional Architecture（MD），中文一般翻译为“多维体系结构”，也称为“总线架构”（Bus Architecture）。多维体系结构的创始人是数据仓库领域中最有实践经验的 K

2024-08-01 21:02:35 557

原创数仓实践：一文读懂数仓 ODS 层模型设计

具体使用的方式可用全外连接（full outer join） + 数据全量覆盖重新加载（insert overwrite）的方式，即如日调度，则将当天增量数据和前一天全量数据做全外连接，重新加载为最新的全量数据。具体使用的方式可用主键去重（row_number）+ 数据全量覆盖重新加载（insert overwrite）的方式，即如日调度，则将当天增量数据和前一天全量数据合并后根据主键去重，重新加载为最新的全量数据。其中：OLD 表存储最近 N 天之前的数据，这部分数据不再使用 delta 增量数据更新。

2024-07-28 14:13:29 1479

原创数仓实践：维度建模标准规范定义

比例型指标定义方式为：派生指标+rb（ration by）+占比组，用于例如：“卖家最近1天销售金额行业占比”，派生指标为卖家最近1天销售金额，占比组为行业，可定义为pay_amt_1d_rb_industry。其定义方式为：派生指标+排名范围（例如：行业、省份、一级类目等）+排名方式（例如：升序排名ark，降序排名drk）+topN+对象名+s（s代表指标为字符串）。例如，新发商品数，重发商品数，新增注册会员数，订单支付金额，这类指标需维护原子指标及业务限定，在此基础上根据指定的统计粒度创建派生指标。

2024-07-17 01:00:28 1015

原创数仓实践：数据仓库建设公共规范指南

数据模型的事实表设计在维度模型事实表的基础上，结合数据使用场景的具体实践，进行一定扩展，采用宽表设计方法。比如会员表，建议拆分为核心表和扩展表。建立核心模型与扩展模型体系，核心模型包括的字段支持常用核心的业务，扩展模型包括的字段支持个性化或是少量应用的需要，必要时让核心模型与扩展模型做关联，不能让扩展字段过度侵入核心模型，破坏了核心模型的架构简洁性与可维护性。在指标定义中，采取组件化的形式，进行指标标准化定义，先规范定义，后生产，全生命周期控制，保障数据口径统一，减少重复建设，强调数据复用和共享。

2024-07-15 19:53:14 1808

阿里云大数据ACP.xmind

阿里云云计算ACP.xmind

空空如也