数据仓库
文章平均质量分 86
Hanson,
我曾七次鄙视自己的灵魂:
第一次,当它本可进取时,却故作谦卑;
第二次,当它空虚时,用爱欲来填充;
第三次,在困难和容易之间,它选择了容易;
第四次,它犯了错,却借由别人也会犯错来宽慰自己;
第五次,它自由软弱,却把它认为是生命的坚韧;
第六次,当它鄙夷一张丑恶的嘴脸时,却不知那正是自己面具中的一副;
第七次,它侧身于生活的污泥中虽不甘心,却又畏首畏尾。
展开
-
元数据,指标,标签,规则,模型
规则:规则一般是不同业务领域的专家,根据业务经验,对几个指标组合,形成一个规则。规则是基于指标,进行业务支撑。即将14-15岁,15-16岁两个指标进行组合。模型:模型基于指标,进行建模。模型与规则不同的是,规则的生成是业务专家根据业务经验,组合多个指标制定的,规则不具有预测能力。模型的生成是应用科学的算法对指标进行计算,同时模型具有预测能力。标签:标签可以基于元数据做整理,也可基于指标做整理。例如:标签可以把14-15岁,15-16岁这两个指标,统一归纳为,"青少年"标签。14-15岁,15-16岁……原创 2023-05-30 09:50:48 · 514 阅读 · 0 评论 -
一、数据仓库详细介绍
Inmon 提出数据仓库的构建过程,应该是自顶而下的(注意:这里的顶不是架构图的上层,而是数据流的上游,也就是数据源)。从数据源到数据仓库再到数据集市,采用范式建模的方法构建数据仓库,遵从第三范式(1.每一个属性都是不可分割的原子项,而不是集合数组记录等,2.每个属性都有且仅依赖于主键,3.每个属性都不能传递依赖于主属性,如果有就拆分成两张表)。Kimball 提出数据仓库的构建过程,采用维度建模的方法,根据业务需求优先构建数据集市,数据再从各个不同的数据集市汇集到数据仓库。标准规则及编码不统一。原创 2023-05-23 10:47:10 · 718 阅读 · 1 评论 -
二、数据仓库详细介绍
我们在工作中会遇到一些问题,例如研发人员说需求分析做得不到位,而做需求的人员会质疑需求做到怎样才算到位,为什么开发出的产品和用户想要的不一致,这些从根上来说,都是因为没有将业务架构梳理清楚,没有达成共识。公用数据层,主题域的划分最好依据对实际业务的抽象,需要保持一定的稳定性、兼容性、前瞻性,主题域的划分需要保证整体数据完整,且数据无重叠。上图是流批一体的架构。需要清晰的了解组织的真实诉求、实际的服务对象。应用架构,是战术,承接业务架构落地,影响技术架构选型,业务架构里的每一个模块在这里都有对应的模块。原创 2023-05-23 10:50:32 · 946 阅读 · 0 评论 -
三、数据仓库实践-拉链表设计
由此带来了大量的存储、计算资源的开销,并且随着该表的持续膨胀,里边数据也没有清退机制,快照会越滚越大,而且还清贷款的数据,所有属性状态是不会再变动的。该场景,我们的数据起止日期(t_start_date、t_end_date)就不适用了,因为理论上,商品价格一天可能会变更多次,必须改成数据起止时间(t_start_time、t_end_time),由此带来的数据处理逻辑的变化,上边 4.4 增量更新的处理逻辑就不适用了,必须改用 4.3 历史数据初始化方式了。奥,看了好久,下边 SQL 的数据止期有问题。原创 2023-05-23 10:52:15 · 2583 阅读 · 0 评论 -
四、数据仓库详细介绍(规范)
发行稿,从大面上应该不会有啥问题,但细节上可能会有考虑不周的情况,在宣讲阶段、执行阶段遇到问题阻碍的时候,应该根据实际情况对规范做出调整,唯有经过实践检验才能愈发完善,相信经过一段时间的持续实践,规范会成为组织文化的一部分,进而降低沟通成本、提高开发效率、保证交付质量,从而实现团队和个人的双赢。本篇写作的初衷,就是找到一种合理的分类方式,把数据规范详尽穷举的罗列给大家,让大家了解全貌。由于只是一家之言,大家如有不同的见解、更好的方案或者有可以再补充的,欢迎拉到文章底部,加我微信,大家共同研究。原创 2023-05-23 10:54:58 · 1746 阅读 · 0 评论 -
数据仓库漫谈-前世今生
上世纪 90 年代(大概 1993-1995 年之间吧),沃尔玛尝试将 Aprior 算法引入到 POS 机数据分析中(实际上是一种商品的关联分析算法),当时发现跟尿布一起购买最多的商品竟然是啤酒,最后经过进一步市场调研发现,美国的太太们经常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫在买完尿布后又随手带回了他们喜欢的啤酒。但随着数据集市的不断增多,这种架构的缺陷也逐渐显现:公司内部独立建设的数据集市由于遵循不同的标准和建设原则,导致多个数据集市的数据混乱和不一致。第三阶段:灵者为先,两种建模思想的融合。原创 2023-05-23 10:56:53 · 880 阅读 · 0 评论 -
五、数据仓库详细介绍(建模)理论篇
说到模型,还有另外一个比较容易搞混的概念:什么是模式?从字面的意思理解,“模”一种标准,或者一种套路,“式”方式,方法,形式。两个字连接在一起就可以解释为,一种可以重复使用,具有参考性的方法、知识体系。在互动百科中定义为:模式是指从生产经验和生活经验中经过抽象和升华提炼出来的核心知识体系。模式(Pattern)其实就是解决某一类问题的方法论。把解决某类问题的方法总结归纳到理论高度,那就是模式。模式是一种指导,在一个良好的指导下,有助于你完成任务,有助于你作出一个优良的设计方案,达到事半功倍的效果。原创 2023-05-23 10:58:03 · 955 阅读 · 0 评论 -
五、数据仓库详细介绍(建模)实践篇
到这里,由于数仓模型设计的复杂性,我们需要多人合作共同完成建模工作,这时候架构师或者建模师可以结合之前分层分域的成果,按层按域将模型设计任务进行拆解后分发给不同的人完成。DW 层,数据仓库的核心存储层,这一层数仓建模的核心,相对标准的思路是我们在明细层采用范式建模的思路自顶向下设计把 ODS 层的数据完整的整合进来,打破孤岛(ID 映射)、消除冗余,再往上层可以采用维度建模的思路,基于 DWD 层做轻度汇总、重度汇总,主要以满足业务需求为主,后期如有需求新增或变化可以基于 DWD 层的完整数据重新汇总。原创 2023-05-23 11:02:07 · 1353 阅读 · 0 评论 -
六、数据仓库详细介绍(ETL)方法篇
上文我们把数据仓库类比我们人类自身,数据仓库“吃”进去的是原材料(原始数据),经过 ETL 集成进入数据仓库,然后从 ODS 开始逐层流转最终供给到数据应用,整个数据流动过程中,在一些关键节点数据会被存储存储下来落入数仓模型。在数仓这个自运转的大生态系统中 ETL 扮演了原材料加工转化和能量传输两个重要角色,有了 ETL 的加持这个生态系统才开始活起来了。在数据仓库领域,ETL 的重要性有时候甚至比数仓模型还高,ETL 水平的高低通常能决定数仓的下限(决定上限的主要是数据应用和源端数据质量)。原创 2023-05-23 11:03:34 · 1843 阅读 · 0 评论 -
六、数据仓库详细介绍(ETL)工具篇上
Datastage 操作界面对元数据的支持:Datastage 是自己管理 Metadata,不依赖任何数据库。参数控制:Datastage 可以对每个 job 设定参数,并且可以 job 内部引用这个参数名。数据质量:Datastage 有配套用的 ProfileStage 和 QualityStage 保证数据质量。定制开发:提供抽取、转换插件的定制,Datastage 内嵌一种类 BASIC 语言,可以写一段批处理程序来增加灵活性。修改维护:提供图形化界面。这样的好处是直观、傻瓜式的;原创 2023-05-23 11:04:55 · 1977 阅读 · 0 评论 -
六、数据仓库详细介绍(ETL)工具篇下
上篇,我们介绍了五种传统 ETL 工具和八种数据同步集成工具。数据仓库详细介绍(五.ETL)工具篇上本篇,我们接着介绍两种新型 ETL 工具、大数据发展不同阶段产生的六种主要计算引擎、五种流程控制组件。最后我们简单讨论两个话题:这么多组件我们该如何抉择?如何快速将工具引入生产实践?0x01 新型 ETL 工具MapReduce 将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map 和 Reduce。原创 2023-05-23 11:07:31 · 1126 阅读 · 0 评论 -
六、数据仓库详细介绍(ETL)经验篇
日常工作中大多数时候都是在做数据开发,ETL 无处不在。虽然最近两年主要做的大数据开发,但感觉日常干的这些还是 ETL 那点事儿,区别只是技术组件全换了、数据量大了很多。前几年数仓势微,是因为传统的那些工具数据库等无法解决数据量进一步膨胀带来的计算问题,大数据火爆也是因为当时大数据开发门槛很高。可是最近两年随着大数据技术的成熟开发门槛越来越低了,数据仓库反而重新火起来了。ETL 的事情就跟 SQL 一样入门很简单,但真要熟练运用也没那么容易,因为这两类技能仅靠理论学习很难掌握,必须不断的实践堆积才行。原创 2023-05-24 09:43:17 · 3028 阅读 · 0 评论 -
七、数据仓库详细介绍(调度)
在之前的文章,我们规划了数仓架构,制定了数仓规范,然后在架构和规范的指导下设计了存储模型、构建了 ETL 系统。数仓模型解决了数据存储问题,ETL 解决了数据同步集成计算问题,而调度解决的是自动化问题。我们通过配置调度去周期性定时触发执行各种任务或流程(同步、集成、计算、校验、测试等)并监控他们的运行情况,及时、保质、自动化的满足各种数据使用需求。最后调度还有一个附加的用途,对于新接手的维护项目,我们想要快速了解其数据流转,线上运行的调度任务就是最好的切入点了。原创 2023-05-24 09:50:15 · 892 阅读 · 0 评论 -
八、数据仓库详细介绍(监控告警)
在前边的章节,我们设计完存储模型,开发了 ETL 任务,并且配置好流程依赖,然后上调度系统,至此我们的数据仓库基本搭建完成,而且所有流程任务都可以自动化运转了。随着公司上线的数据处理任务越来越多,我们可以安排专门的运维人员定时监控任务执行情况,定时去检查终端应用,尽最大可能的发现问题(比如源数据迟到、数据量突增、异常数据或者开发考虑不周、有人修改代码且测试不充分、服务器异常、调度宕机等等),并且赶在业务使用前解决掉。不过技术人嘛,这种全靠人肉去监控的方法总感觉太低端,而且心里很不踏实。原创 2023-05-24 09:54:41 · 1451 阅读 · 0 评论 -
九、数据仓库详细介绍(元数据)
元数据(Meta-data)是描述数据的数据(The data about data),更准确点应该叫 The information abut data。如何理解这句话?就是描述信息、实体、系统的数据。举几个例子175,大家有概念吗?如果我说这是一个男孩儿的身高大家是不是就懂了。如果我再加一个他才 14 岁信息量是不是更大了?因此:数据+元数据(描述数据的数据)=信息。遥控器,上边一堆按键如果没有文字说明大概率是没人会用的。原创 2023-05-24 09:58:10 · 2557 阅读 · 0 评论 -
十、数据仓库详细介绍(数据质量)理论与经验
数据质量管理是对数据从计划、收集、记录、存储、回收、分析和展示生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。原创 2023-05-24 10:08:13 · 935 阅读 · 0 评论 -
十、数据仓库详细介绍(数据质量)流程与工具
做为数据人必须对数据质量保持足够的重视。数据质量管理是通过划分数据资产等级和分析元数据的应用链路,对不同资产等级的数据采取相对应的质量管理方式。数据质量管理流程图如下:原文内容可以翻阅阿里巴巴大数据之路,第 15 章数据质量部分。也可以查看阿里云文档:https://help.aliyun.com/document_detail/114560.html包含两部分内容:数据资产等级的定义根据资产等级分析数据处理链路1、数据资产等级的定义。原创 2023-05-24 10:14:53 · 784 阅读 · 1 评论 -
十一、数据仓库详细介绍(应用)
数据仓库是一种数据管理的方法论,理论概念很早就提出来了,而且各个行业都有广泛深入的应用。因此到目前为止该方法论的理论和实践体系已经非常完善了。深入了解过数仓而且有一定实践经验的人,应该能够在数据中台、数据治理、数据资产管理、数据中心,以及 DAMA、DCMM 等知识体系中,看到许许多多的数据仓库的知识。原创 2023-05-24 10:17:51 · 700 阅读 · 0 评论