
数仓建模/数据架构/数据治理
文章平均质量分 89
作者将系列化为您分享数仓建模,数据规范,数据架构,数据治理等相关知识,既有作者多年的工作心得,也有行业标杆的样例。既有基础入门知识,也有高阶,欢迎大家一起交流。
涤生大数据
在职阿里,美团,京东,字节大数据技术专家,擅长大数据开发,集群架构/运维,爱好python数据分析/爬虫,
加 v: dsflink 可免费转行评估,职业规划,校招规划,大数据进阶指导,简历把脉
欢迎一起交流
展开
-
一文弄懂离线数仓中小文件问题
产生场景: MaxCompute使用盘古分布式文件系统是按块(Block)存放的,通常文件大小比块大小小的文件(默认块大小为64MB),被称为小文件。原创 2025-04-16 23:52:23 · 914 阅读 · 0 评论 -
数据清洗到底在清洗什么?
在大数据时代,数据是每个企业的五星资产,被誉为“新石油”,但未经处理的数据往往参杂着大量“杂质”。这些“脏数据”不仅影响分析结果,严重的甚至误导企业决策。数据清洗作为数据预处理的关键环节,正是通过“去芜存菁”,让数据焕发价值。那么,数据清洗究竟在清洗什么?本文将为你一一解析。原创 2025-04-16 23:32:28 · 991 阅读 · 0 评论 -
数据质量问题中,数据及时性怎么保证?如何有深度体系化回答!
数据治理,数据质量这快是中大厂,高阶大数据开发面试必备技能,企业基于大数据底座去做数仓,那么首先需要保障的就是数据质量。原创 2025-04-10 23:04:19 · 534 阅读 · 0 评论 -
企业数据治理实践:“七剑” 合璧,释放数据价值
在数字化转型的浪潮中,数据已成为企业的核心资产,其治理水平直接关乎企业的竞争力和可持续发展能力。数据模型治理、元数据治理、数据质量治理、数据标准治理、主数据治理、数据安全治理以及数据服务平台治理,共同构成了企业数据治理的关键体系,如同七把利剑,各司其职又协同作战,助力企业在数据驱动的时代中脱颖而出。本文带大家深入探讨这七个方面在企业数据治理实践中的重要作用、实施方法及应用案例。原创 2025-04-02 22:03:55 · 811 阅读 · 0 评论 -
数据仓库架构全解析:如何构建高效、有序的数据分层?
1.监控体系:建立全方位数据监控,包括数据质量(准确性、完整性、一致性)监控,通过数据校验规则比对;2.故障应急:制定详细故障应急预案,依据故障影响范围、严重程度分级,不同级别启动相应处理流程,从故障发现、通知责任人到恢复系统正常运行各环节明确时间节点与操作步骤,如数据延迟故障,5 分钟内发现通知,30 分钟内定位修复。2.数据脱敏:对敏感数据,如客户身份证号、银行卡号,在非必要场景进行脱敏处理,采用哈希、替换等方法,保证数据可用性同时保护隐私,如身份证号保留前 6 位和后 4 位,中间用星号代替。原创 2025-03-07 22:18:37 · 762 阅读 · 0 评论 -
数据治理怎么做,看完这篇你就明白了
在大数据时代,几乎所有企业都看到了数据的价值,快速开始探索数据应用场景和商业模式、建设数据中台,但是如果在大数据拼图中遗忘了数据治理,那么即使做再多的业务和技术投入也是徒劳的,因为很经典的一句话:Garbage in Garbage out,数据质量没有保证。而保证数据质量,数据治理是必须的手段。数据治理这个话题看似阳春白雪高大上,实际上是非常下里巴人接地气,或者说必须要顶天立地才能见实效。原创 2025-02-17 14:41:13 · 1055 阅读 · 0 评论 -
从 0 到 1 构建数仓之DWD层
在企业数字化转型进程中,数据仓库的建设至关重要,而 DWD 层(明细粒度事实层)作为数据仓库的核心支撑层,其搭建质量直接影响企业数据的分析价值与决策效率。本文将结合实际案例与行业经验,详细阐述企业如何从 0 到 1 搭建高效、可靠的 DWD 层。原创 2025-02-05 16:14:04 · 882 阅读 · 1 评论 -
从0到1构建数仓之ODS层
在互联网金融信贷业务的数字化运营中,离线数仓扮演着数据存储、管理与分析基石的角色。其中,操作数据存储(ODS)层作为离线数仓的首层,负责对源系统数据进行抽取、转换与加载(ETL),是后续数据处理与分析工作的重要基础。本文将深入探讨互联网金融信贷离线数仓ODS层的搭建,重点聚焦于数仓数据采集同步策略中的增量与全量同步方案选择,并结合实践中的代码示例,为对数仓工程师岗位培训提供全面且实用的指导。原创 2025-01-15 11:37:04 · 1559 阅读 · 0 评论 -
涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(下)
计算链路较短,但如果发生Flink任务重启的情况,需要离线和实时两条线一起修复数据:离线补一次T-1数据到hbase + 离线初始化hbase中当日新用户数据为0 + Flink重启回拉消息位点到T日00:00,共计三步。非T日新增的老用户的数据在ODPS表里已存在,odps2hbase时会覆盖掉hbase表中现有数据,都更新为ODPS表数据,这样在hbase结果表里,T日之前的老用户累计数据都是正确的;(如上,27号的数据既要参与27日当日的实时计算,也要参与28号的实时计算)。原创 2024-02-21 10:00:00 · 2265 阅读 · 0 评论 -
涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(上)
当一个用户在T日实时上传了自己的跑步记录,Flink节点1会计算出其 [当日0点起至此刻] 的跑步累计数据data1,Flink节点2会根据该用户id取hbase维表里查询其 [历史~T-1日] 的累计数据 data2 (hbase表里数据由odps每日更新,即T-1日的存量累计汇总数据),将data1和data2二者汇总,就可得到 用户历史至此时刻的汇总数据;在凌晨时分,ODPS计算T-1日数据期间,如果发生了对T-1日的数据查询,则无法获取到期望的T-1日数据,会继续使用T-2日的数据。原创 2024-02-05 12:08:37 · 1775 阅读 · 0 评论 -
高级开发必备技能:如何建设一个规范化数仓?
本章节为什么较多从面试角度体系话介绍数仓规范呢,主要是很多同学给宇哥反馈在求职面试的时候,在问到数仓规范相关的面试题的时候,发现直接没办法体系化专业化的介绍出来,只能零散的介绍出一些片段,最后在面试当中失利。在规范制定阶段,往往都是由有一位数仓团队leader或架构师,或者由不同部分的核心开发人员合作(当然这些人员一般都是具备成熟数仓建设经验的,都是对数仓规范有相当认识的同学),以充分考虑公司实际情况,并参考行业标准或已有的规范来制定规范。这有助于消除数据孤岛,提高协作和对数据的信任。原创 2024-01-17 08:45:00 · 1061 阅读 · 0 评论 -
新能源趋势下一个简单的数仓项目,助力理解数仓模型
目前国家政策的主导之下,新能源相关项目和公司的竞争愈演愈烈,很多新能源公司开始大规模的布局数仓,来从自己的产生的大量的数据中提取价值,进而在新能源市场有自己的一席之地。这里假设我们的数据源是一个新能源公司的数据库,包含以下几张表:electricity_meter, solar_panel, weather_data。这些表包含了电表读数、太阳能板数据和天气数据等信息。接下来,我们以Scala为开发语言,Spark为计算引擎,演示一个完整的项目代码,非常容易理解一个业务的数仓开发建设。原创 2024-01-03 07:45:00 · 618 阅读 · 0 评论 -
企业实战总结:SQL Join执行的常见问题及解决方案
需要注意的是mapjoin括号中的表是小表侧,而且是不能当做可能会补null的一边,也就是left join的左表,right join的右表,full join的两端,否则就算是写了hint也也不起作用。数据倾斜也是join中的一类常见问题,例如要对在购物车的商品以商品id做关联,总是免不了出现部分热门商品在购物车的次数远远超出平均值的情况。这时会出现严重的长尾。这里tbl3的join key为k1,tbl2的join key是k1, k2,tbl3的join key更短,可以放在前面。原创 2023-12-20 10:00:00 · 661 阅读 · 0 评论 -
大厂数仓专家漫谈数据仓库的魅力与作用!
数据仓库(Data Warehouse)的官方定义可以根据不同的权威来源略有不同,但通常情况下,以下是数据仓库的官方定义:1.Inmon的定义(由Bill Inmon提出,被认为是数据仓库领域的先驱):数据仓库是“集成的、主题导向的、非易失性的、时间变化的数据集合,用于支持管理决策制定过程”。a.集成的:数据仓库将来自不同源系统的数据集成到一个统一的存储中,消除了数据的分散性。b.主题导向的:数据仓库是以主题或业务需求为导向的,而不是以特定的应用程序或业务过程为导向。原创 2023-12-16 17:15:00 · 334 阅读 · 0 评论 -
大厂数仓专家实战分享:企业级埋点管理与应用
埋点(Event Tracking),是互联网数据采集工作中的一个俗称,正式应该叫事件跟踪,英文为 Event Tracking,它主要是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。原创 2023-12-13 09:00:00 · 275 阅读 · 0 评论 -
大厂数仓专家实战分享:企业级埋点管理与应用
埋点(Event Tracking),是互联网数据采集工作中的一个俗称,正式应该叫事件跟踪,英文为 Event Tracking,它主要是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。原创 2023-11-19 10:15:00 · 249 阅读 · 0 评论 -
数据质量的新篇章:大厂专家分享离线与实时数据建设经验
数据质量是悬在每个数据同学头顶的达摩克里斯之剑。一旦我们对其缺少敬畏,或是我们的“武器”不够丰富,缺乏有效的质量保障措施;这把剑就会无情落下。数据质量保障符合蝴蝶效应,只要数据链路上任何一个小的细节点出现问题,则实时数据的质量会大幅度下降,因此需要构建数据质量的全链路监控,从数据研发到数据消费都需要重点监控,并通过一定的流程机制保障数据参与方的规范性,以此来保障数据全生命周期的质量健康度。本文会结合离线和实时数据建设场景谈谈对数据质量全链路建设认知。原创 2023-10-31 10:15:00 · 553 阅读 · 0 评论 -
大数据实战:用户画像之标签如何治理
以上就是我们从几个维度对治理标签的探讨,其实不管是数据治理,还是标签治理,个人觉得最重要的是要能合理的评估出来收益。像标签安全,比较重要的,如果敏感数据未脱敏,并且超过一定范围,直接给0分。所有维度权重加起来等于100%,具体实际权重可以根据目标和关注点进行调整。如果最终评分太低的话,我们就可以对标签进行优化调整或者 下线的操作。原创 2023-10-14 09:45:00 · 508 阅读 · 0 评论 -
手把手教你搭建用户画像系统(入门篇下)
Hive是最基础的存储,主要存储标签计算结果集,跑spark作业或MapReduce作业,处理大量的数据集时使用。存储一些数量级较少的标签。MySQL的读写不用跑mapreduce作业,对于小量的数据读写速度很快。用于存储元数据、标签量级的监控、一些表加工结果的状态位、业务系统中读取的一些数据。存储线上推荐给用户的实时性较强的数据,在画像产品化章节中有讲到圈人服务,业务方根据规则圈定人群后进一步通过分析明确该人群是其要运营的人群后,将该人群推送到相应的业务系统中,有的业务系统使用hbase提供服务。原创 2023-09-13 09:45:00 · 333 阅读 · 0 评论 -
手把手教你搭建用户画像系统(入门篇上)
用户画像是指描述一个用户或用户群体的细节和特征的方法,通过收集用户的。原创 2023-09-08 08:45:00 · 819 阅读 · 1 评论 -
SQL之优化篇:一文搞懂如何优化线上任务性能,增效降本!
可以通过调整split size来设置task的实例数。原创 2023-08-27 09:45:00 · 1943 阅读 · 0 评论 -
SQL优化之诊断篇:快速定位生产性能问题实践
【该阶段作业卡住的可能原因 2 】小文件太多。ODPS 会根据文件大小决定 split,小文件多了会导致计算 split 的过程耗时增加。原创 2023-08-23 22:15:00 · 377 阅读 · 0 评论 -
大数据开发面试必问:Hive调优技巧系列二
当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。增加map的方法为:根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式,调整maxSize最大值。让maxSize最大值低于blocksize就可以增加map的个数。原创 2023-08-07 15:14:00 · 463 阅读 · 0 评论 -
企业大数据可视化案例专题分享-入门
架构位置:如下图所示,是一个比较典型的数据架构图,它分为三大块:数据源、数据ETL模块、数据应用模块。那这里的报表应用就属于可视化的部分,通常它是以定制化的数据看板呈现业务数据,或者按照自己需求进行控件(例如饼图、柱状图、折线图等)拖拽呈现。步骤4:添加其他步骤。重复步骤二和步骤三,为漏斗添加其他步骤,形成完整行为漏斗。若想分析广东省地区的用户购买行为,首先点击“创建漏斗”按钮,并将漏斗名称命名为“电商转化漏斗”。步骤3:点击“触发限制条件”按钮,添加筛选条件,在下拉选单中选择“省份”等于“广东省”。原创 2023-08-03 21:53:45 · 565 阅读 · 0 评论 -
大数据开发面试必问:Hive调优技巧系列一
Hive SQL 几乎是每一位互联网分析师的必备技能,相信很多小伙伴都有被面试官问到 Hive 优化问题的经历。所以掌握扎实的 HQL 基础尤为重要,hive优化也是小伙伴应该掌握的一项技能,本篇文章具体从hive建表优化、HQL语法优化、数据倾斜优化、hivejob优化四个大块讲解,带你系统的了解hive优化。原创 2023-07-31 11:10:32 · 621 阅读 · 0 评论 -
企业数据治理实战总结--数仓面试必备
任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。常见的业务元数据有维度及属性(包括维度编码,字段类型,创建人,创建时间,状态等)、业务过程、指标(包含指标名称,指标编码,业务口径,指标类型,责任人,创建时间,状态,sql等),安全等级,计算逻辑等的规范化定义,用于更好地管理和使用数据。原创 2023-07-18 11:11:19 · 1325 阅读 · 0 评论 -
企业数据治理实战总结--数仓面试必备
本文为数仓面试必备!!!文章整理自涤生大数据老师宇哥,宇哥是历任中国电信,平安银行,微众银行,众安保险等多家公司擅长大数据求职面试,数仓开发管理,数据治理,数据质量等工作原创 2023-03-08 07:00:00 · 2848 阅读 · 1 评论 -
带你学习不一样的数据仓库系列-框架概念
本系列文章参考总结自IBM,FaceBook,Google等数据仓库构建英文文章,部分章节为直译过来,部分内容加上乐哥6年陌陌,快手等工作经验总结而来,让大家了解真实国外大厂数仓构建之路,国外同行对数仓的理解原创 2022-12-01 07:00:00 · 1298 阅读 · 0 评论 -
企业数仓DQC数据质量管理实践篇
本文介绍了数仓DQC数据质量管理理论,并分析了企业中如何进行实践!原创 2022-11-29 07:00:00 · 2920 阅读 · 0 评论 -
如何优雅部署OpenStack私有云II--异常处理记录
Kolla虽然已经实现了自动化,但是,安装过程依旧折腾得死去活来。特地记录了当时处理各种异常的记录,希望能够帮助到大家。原创 2022-11-21 07:51:48 · 1400 阅读 · 1 评论 -
如何优雅部署OpenStack私有云I--Kolla
本文部署了一套基于完全开源的、方便部署、各位看官姥爷可复制的一个保姆级操作文档。整体操作做了模块拆分,循序渐进,满足你的各种求知欲。原创 2022-11-19 07:02:37 · 1919 阅读 · 1 评论 -
老司机带带我:数仓建模架构|维度建模剖析与案例演示
作者基于多年的大数据处理经验,当前管理着100PB+数据仓库和2000+节点的集群。持续系统化给大家分享一下关于数据仓库建设的经验总结。本系列既有数据仓库的形而上学理论体系,也有结合公司业务的实践,既有大厂如阿里巴巴,京东,头条的分享交流,也有小公司数仓迭代案例的建设分析。感兴趣的小伙伴可以私信交流。0.数仓相关系列历史篇章回顾1. 先见森林:数据仓库的前世今生与体系框架2. 数仓建模本质到底是什么?为什么维度建能模脱颖而出?1.从小公司到大公司看数仓建模发展 ...原创 2021-09-13 11:30:42 · 9288 阅读 · 32 评论 -
数仓建模本质到底是什么?为什么维度建能模脱颖而出?
作者基于多年的大数据处理经验,当前管理着100PB+数据仓库和2000+节点的集群。持续系统化给大家分享一下关于数据仓库建设的经验总结。本系列既有数据仓库的形而上学理论体系,也有结合公司业务的实践,既有大厂如阿里巴巴,京东,头条的分享交流,也有小公司数仓迭代案例的建设分析。感兴趣的小伙伴可以私信交流。0.历史系列篇章回顾 先见森林:数据仓库的前世今生与体系框架1.什么是数仓建模本质? 所谓的数据仓库建模,听着很高大,我们要透过现象看本质。其...原创 2021-09-10 15:23:36 · 3659 阅读 · 14 评论 -
收藏,数据仓库建设与框架终于有人给讲明白了
数据仓库,这个几乎是所有大数据开发面试必问的话题。比如数据仓库的分层架构?为什么需要数据仓库建模?数据仓库建模的原则是什么?结合业务举例说明数据仓库建模的步骤,以及注意事项?什么是缓慢变化维?维度该如何选择建设,原则是什么,主键如何设计等等? 搞得一众小伙伴死去活来,甚至工作好几年的小伙伴都没搞清楚过,尤其是大厂特别爱问这些问题。有小伙伴甚至觉得这些都是形而上学,不懂这些我不一样搞了很多年开发?1.什么是数据仓库 数据仓库,英文名称为DataWarehouse,可简...原创 2021-09-08 12:00:33 · 5482 阅读 · 18 评论 -
数据仓库常见建模方法与建模实例演示
1.数据仓库建模的目的? 为什么要进行数据仓库建模?大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在 性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑访问性能:能够快速查询所需的数据,减少数据I/O 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数 据系统中的存储成本和计算成本 使用效率:改善用户应用体验,提高使用数据的效率 数据质量...原创 2020-04-14 15:52:09 · 18804 阅读 · 3 评论 -
Hive开发要知道数据仓库的四个层次设计
数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。1.数据仓库的四个操作 ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集...原创 2018-02-12 18:11:09 · 49575 阅读 · 6 评论