云 祁
码龄6年
关注
提问 私信
  • 博客:1,358,048
    社区:27
    动态:81
    1,358,156
    总访问量
  • 492
    原创
  • 1,583
    排名
  • 9,342
    粉丝

个人简介:Focus BigData,专注于大数据技术领域的知识分享。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 目前就职: 阿里巴巴
  • 加入CSDN时间: 2019-03-17
博客简介:

云祁QI

博客描述:
人生,海海,破浪前行。
查看详细资料
  • 原力等级
    当前等级
    6
    当前总分
    2,799
    当月
    22
个人成就
  • 博客专家认证
  • 获得3,254次点赞
  • 内容获得1,973次评论
  • 获得7,817次收藏
  • 代码片获得4,880次分享
创作历程
  • 1篇
    2025年
  • 33篇
    2024年
  • 3篇
    2023年
  • 18篇
    2022年
  • 28篇
    2021年
  • 275篇
    2020年
  • 261篇
    2019年
  • 5篇
    2018年
成就勋章
TA的专栏
  • 数仓实践
    付费
    27篇
  • 读书笔记 💚
    18篇
  • Big Data 🧡
    1篇
  • ---- Hadoop
    9篇
  • ---- Hive
    37篇
  • ---- Flink
    29篇
  • ---- Spark
    25篇
  • ---- Spark MLlib
    10篇
  • ---- Spark Streaming
    6篇
  • ---- Flume
    8篇
  • ---- Kafka
    27篇
  • ---- HBase
    14篇
  • ---- MongoDB
    3篇
  • ---- Sqoop
    2篇
  • ---- Kylin
    2篇
  • ---- Druid
    9篇
  • ---- NiFi
    2篇
  • ---- Oozie
    3篇
  • ---- Azkaban
    2篇
  • ---- Zookeeper
    2篇
  • ---- Dataphin
    4篇
  • ---- Alibaba Cloud
    17篇
  • ---- ElasticSearch
    7篇
  • ---- Scala 基础
    7篇
  • ---- 数据中台
    3篇
  • ---- 数仓架构
    5篇
  • ---- 数仓理论
    9篇
  • ---- 面试总结
    16篇
  • ---- 业务思考和解读
    2篇
  • Personal blogs (๑•̀ㅂ•́)و✧
    15篇
  • Basis 🧡
  • ---- Data Structure
    2篇
  • ---- Algorithm
    8篇
兴趣领域 设置
  • 大数据
    hadoophivesparkflink数据仓库
  • 微软技术
    sql
公众号:云祁QI
我是「云祁」,一枚热爱技术、会写诗的大数据开发猿,专注数据中台和 Hadoop / Spark / Flink 等大数据技术,欢迎一起交流学习。生命不是要超越别人,而是要超越自己!加油 (ง •_•)ง

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0JlaWlzQmVp,size_16,color_FFFFFF,t_70
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

无缝集成 MySQL,解锁秒级数据分析性能极限

阿里妹导读在数据驱动决策的时代,一款性能卓越的数据分析引擎不仅能提供高效的数据支撑,同时也解决了传统 OLTP 在数据分析时面临的查询性能瓶颈、数据不一致等挑战。本文将介绍通过 AnalyticDB MySQL + DTS 来解决 MySQL 的数据分析性能问题。引言在应对大规模业务数据的在线统计分析需求时,传统数据库常常难以满足高性能和实时分析的要求。随着业务数据的不断累积,数据量迅速膨胀,虽然...
转载
发布博客 2025.01.09 ·
43 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2024:尽我所能,敬我不能

2024 年即将划上句号,回望过去一年的风雨兼程。最核心的关键词,是体验、充盈与幸福,这三个词充满了我的 2024。刚提笔时,脑海里还是有点空白,想了想,既然是自己的年终复盘,不就是自己和自己说说话嘛。不如翻开相册和朋友圈来写,不就是这一年发生的点滴了?⏱ 回顾 20241 月关键词...
原创
发布博客 2024.12.31 ·
888 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

DAMA CDGP:论述题真题解析之元数据篇

参考答案 : 第一问元数据管理不善容易导致以下问题:冗余的数据和数据管理流程;重复和冗余的字典、存储库和其他元数据存储;不一致的数据元素定义和与数据滥用的相关风险;元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心;怀疑元数据和数据的可靠性。2022-07一.问题简述元数据:(1)元数据管理不善带给企业的影响(风险);(2)结合企业情况设计元数据架构(设计元数据管理系统)二、问题解析元数据是...
原创
发布博客 2024.12.10 ·
696 阅读 ·
19 点赞 ·
0 评论 ·
19 收藏

数仓解惑:维度建模不是万金油

数据仓库的演变与目的数据仓库的最初目的是为了数据分析,将企业各系统的数据汇总到一个离线仓库中,以便进行大规模的查询和分析,从而获得业务指标,辅助决策。随着信息化和数字化的发展,数据仓库逐渐演变为数据湖,汇聚了企业的所有数据,其应用场景也不再局限于数据分析。数据仓库的分层理论在数据仓库的实践中,我们通常遵循以下分层理论:ODS(操作数据存储):作为采集数据层,保持数据原貌,基本不进行加工。CDM(公...
原创
发布博客 2024.12.09 ·
909 阅读 ·
13 点赞 ·
0 评论 ·
17 收藏

数仓实践:数仓中的实际问题与解决方案

整理:数据学堂小 A 进入一家网约车出现服务公司,负责公司数仓建设,试用期主要一项 OKR是制定数据仓库建设规划;因此小 A 本着从问题出发为原点,先对公司数仓现状进行一轮深入了解,理清存在问题,然后在以不忘初心原则提出解决问题方案。相信很多数据建设者在公司发展某个阶段时都会遇到类似小 A 公司问题,也在思考或已经在执行落地解决这些问题方案,希望通过小 A 案例可以给大家一些启发。下面先看看小 A...
转载
发布博客 2024.11.26 ·
72 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓实践:维度建模不是万金油

最近有些抵触写东西,总感觉自己没有清晰的表达思路和专业的知识体系,写的东西都是更偏向个人经验的一家之谈;之前总想着把文章结构做好,图片做好,表达做好,这样能更容易让大家理解,可以让更多的人接受所要表达的观点;但是,这样写太痛苦了,似乎是为了达到某种结果而刻意为之。最终还是回归表达的本质,传播思路和想法,把这个说清楚就可以了,不管是三言两语还是长篇大论,让看到的人能知道有这么一种观点和想法即可,引发思考之后接受与否已经与表达者无关了;特别是一些偏向专业的内容,只需要让有专业背景和思考的受众了解即可;
原创
发布博客 2024.11.25 ·
49 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓实践:数据开发需要了解的 BI 数据分析方法

数仓开发经常需要与数据表打交道,那么数仓表开发完成之后就万事大吉了吗?显然不是,还需要思考一下如何分析数据以及如何呈现数据,因为这是发挥数据价值很重要的一个方面。通过数据的分析与可视化呈现可以更加直观的提供数据背后的秘密,从而辅助业务决策,实现真正的数据赋能业务。帕累托分析方法与数据可视化RFM分析与数据可视化波士顿矩阵与数据可视化本文主要介绍了数仓开发应该要了解的常见的数据分析方法,主要有三种:帕累托分析、RFM分析以及波士顿矩阵分析。
原创
发布博客 2024.10.09 ·
220 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

为什么全网都在看衰数据中台,数据中台是陷阱,还是利器?

今天的文章,我们聊一聊:为什么全网都在看衰数据中台?“数据中台是大数据的下一站”“还没有构建数据中台,你的企业 OUT 了”“为什么说建设数据中台是企业数字化转型的必要环节”...相信很多人,在前两年都在网上看过类似的文章,没错,前两年数据中台的地位很高,说它是“当红炸子鸡”一点也不为过。可疫情过后,一切都变了。现在,我们看到的网上信息都在唱衰数据中台,从被各界追捧到人人唾弃,数据中台发生了什么?...
转载
发布博客 2024.08.27 ·
391 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

聚焦电商场景,详解抖音集团埋点及归因分析方案

导读本文将聚焦电商场景,介绍抖音集团埋点历程、电商场景解决方案、归因实践及其收益等模块,旨在为数据技术人员在埋点后数据加工过程中所遇到的问题提供有益思路。今天我会从三个模块来给大家介绍下整体的思考:1.电商业务现状与问题2.解决方案3.总结规划分享嘉宾|张雷雷 抖音集团电商数据架构师编辑整理|冯蕾蕾内容校对|李瑶出品社区|DataFun01解决方案1. 埋点历程(1)无日志采集2013 ...
转载
发布博客 2024.08.26 ·
270 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

DAMA CDGP:论述题真题解析之数据安全篇

真题一一、问题简述(考点:数据安全)企业应该具备什么样的数据安全能力哪些个人隐私数据需要脱最处理数据脱敏的常用方法二、问题解析信息安全、网络安全、数据安全、和系统安全等个人信息、敏感信息、法律规定的信息等主要考察九种脱敏方法三、Answer3.1 数据安全能力包括:信息安全,包括:脆弱性、威胁、风险、风险等级、数据安全组织、安全流程、数据完善性、加密、混淆/脱敏网络安全,包括:后门、机器人/僵尸、...
原创
发布博客 2024.08.23 ·
1223 阅读 ·
15 点赞 ·
0 评论 ·
11 收藏

DAMA CDGP 论述题真题解析一:数据安全篇

数据安全治理得需要有足够的资金支持,面向系统、企业内保持方案一致,建立安全战略等,主要包括:数据安全分析现状,数据安全活动、以及基于数据生命周期等数据安全管理三个维度。可通过混淆处理(变得模糊或不明确)或脱敏(删除、打乱或以其他方式更改数据的外观等)的方式来降低数据可用性,同时避免丢失数据的含义或数据与其他数据集的关系。在数据和信息安全实施过程中,首先要评估组织当前的数据状态,确定需要保护的数据范围。因此,不能公开提供服务。在数据和信息安全实施过程中,首先要评估组织当前的数据状态,确定需要保护的数据范围。
原创
发布博客 2024.08.22 ·
254 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓实践:有关数仓架构的一些设计

在早期数仓建设中,大多以批处理的方式为基线进行开发,随着业务的发展,需求对实效性和准确性要求越来越高,于是有了实时数据处理的流程,随之出现了 Lambda、Kappa 以及 Kappa+ 常见的数仓架构。
原创
发布博客 2024.08.18 ·
246 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓解惑:什么是主数据?

主数据 (MasterData):在企业中用来定义业务对象的、具有持续性、非交易类的数据。相对于交易类数据,主数据是相对稳定的数据。
原创
发布博客 2024.08.12 ·
219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓解惑:一致性维度和一致性事实

在 Kimball 的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念:总线架构(Bus Architecture),一致性维度(Conformed Dimension),一致性事实(Conformed Fact)。多维体系结构(总线架构) 数据仓库领域里,有一种构建数据仓库的架构,叫 Multidimensional Architecture(MD),中文一般翻译为“多维体系结构”,也称为“总线架构”(Bus Architecture)。多维体系结构的创始人是数据仓库领域中最有实践经验的 K
原创
发布博客 2024.08.01 ·
126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓实践:一文读懂数仓 ODS 层模型设计

具体使用的方式可用全外连接(full outer join) + 数据全量覆盖重新加载(insert overwrite)的方式,即如日调度,则将当天增量数据和前一天全量数据做全外连接,重新加载为最新的全量数据。具体使用的方式可用主键去重(row_number)+ 数据全量覆盖重新加载(insert overwrite)的方式,即如日调度,则将当天增量数据和前一天全量数据合并后根据主键去重,重新加载为最新的全量数据。其中:OLD 表存储最近 N 天之前的数据,这部分数据不再使用 delta 增量数据更新。
原创
发布博客 2024.07.28 ·
1068 阅读 ·
12 点赞 ·
0 评论 ·
13 收藏

数仓实践:维度建模标准规范定义

比例型指标定义方式为:派生指标+rb(ration by)+占比组,用于例如:“卖家最近1天销售金额行业占比”,派生指标为卖家最近1天销售金额,占比组为行业,可定义为pay_amt_1d_rb_industry。其定义方式为:派生指标+排名范围(例如:行业、省份、一级类目等)+排名方式(例如:升序排名ark,降序排名drk)+topN+对象名+s(s代表指标为字符串)。例如,新发商品数,重发商品数,新增注册会员数,订单支付金额,这类指标需维护原子指标及业务限定,在此基础上根据指定的统计粒度创建派生指标。
原创
发布博客 2024.07.17 ·
775 阅读 ·
13 点赞 ·
0 评论 ·
24 收藏

数仓实践:数据仓库建设公共规范指南

数据模型的事实表设计在维度模型事实表的基础上,结合数据使用场景的具体实践,进行一定扩展,采用宽表设计方法。比如会员表,建议拆分为核心表和扩展表。建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要,必要时让核心模型与扩展模型做关联,不能让扩展字段过度侵入核心模型,破坏了核心模型的架构简洁性与可维护性。在指标定义中,采取组件化的形式,进行指标标准化定义,先规范定义,后生产,全生命周期控制,保障数据口径统一,减少重复建设,强调数据复用和共享。
原创
发布博客 2024.07.15 ·
1570 阅读 ·
21 点赞 ·
0 评论 ·
16 收藏

深入解读:数据团队工作全貌

来源:网络整理|全文共4946个字,建议阅读13分钟今日分享从不同角度看数据团队的工作。作为一个『二进宫』的阿里人,这个月刚好是入职 Lazada 的两周年。虽然两次与阿里结缘都是在数据团队(DT),但这次从数据中台到业务前台,从个人贡献者到 TL,团队和身份的转变让我对个人的发展及未来要做的事情都有了更深入的了解和认识,这里也和大家分享一下在业务前台做数据工程的经验与思考。作为一名前端...
转载
发布博客 2024.07.15 ·
153 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数仓实践:浅谈数仓建模宽表设计

主要讲解了一下几个方面为什么要建设宽表宽表的不足如何设计宽表宽表到底多宽主次分离冷热分类稳定与不稳定分类设计宽表的理论其实说白了就是一句话:高内聚低耦合,我们要从在业务、ETL 刷新、指标属性、数据来源等角度,让高度内聚的属性、描述、度量放在一个表中。基本可以从两个维度矩阵进行切割:第一:按实体属性可能涉及的业务范围进行划分。当前用户的基本属性和维度,数据相对静态,修改较少。统计的集合包括所有实体对象。用户在统计日发生的行为度量指标。
原创
发布博客 2024.07.14 ·
1154 阅读 ·
14 点赞 ·
0 评论 ·
20 收藏

数仓实践:详解大厂实时数仓建设方案

实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。2. 实时技术日...
转载
发布博客 2024.07.13 ·
173 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多