自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员学习圈

行胜于言、质胜于华

  • 博客(24)
  • 收藏
  • 关注

原创 阿里巴巴数据中台实践分享

01、中台模式驱动全集团业务02、数据驱动业务的典型场景03、阿里数据中台体系的核心要素04、数据中台:数据资产化05、数据中台:OneData数据资产化核心方法论06、数据中台:数据资产化核心方法论-OneModel07、数据资产化核心方法论-OneModel08、数据中台:服务产品化09、数据中台:OneData方法论驱动的平台智能化10、数据中台:创新敏捷化11、企业数据中台:“欲速则不达”的陷阱12、企业数据中台:方法论+自动化支持的逐层构建

2020-10-21 12:10:36 3452

原创 《数据中台实战课》实现篇-学习笔记

4、元数据中心的关键目标和技术实现方案5、如何统一管理纷繁杂乱的数据指标6、数据模型无法复用,归根结底还是设计问题7、同事老打脸说数据有问题,该怎么彻底解决8、交付速度和质量问题解决了,老板说还得“省”9、数据服务到底解决了什么问题?10、数据服务难道就是对外提供个API吗?11、怎么一劳永逸地解决数据安全问题?12、数据的台子搭完了,但你还得想好戏该怎么唱13、数据研发就只是写代码吗14、数据被加工后,你还要学会使用和管理数据15、数据中台在网易电商业务的最佳实践16、结束语

2020-10-21 10:50:23 11633

原创 《数据中台实战课》原理篇-学习笔记

1、为什么说数据中台是大数据的下一站?2、到底什么样的企业应该建数据中台?2.1 建设中台前,我们面临的挑战(数据中台解决的问题)2.2 为什么数据中台可以解决这些问题(问题背后的原因)2.3 数据中台如何解决这些问题的?2.4 什么样企业适合建设数据中台?3、数据中台建设三板斧:方法论、组织和技术

2020-10-20 11:01:23 1194

原创 数据仓库【什么是宽表?什么是窄表?宽表和窄表的区别、优点、缺点及各自用处】

宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题。(一句话,空间换时间,便于训练迭代、减少表关联数量,修改少量数据时不需要该多张表)

2020-10-19 19:52:00 3969 1

原创 数据仓库【质量监控】

1、监控1.1 日常监控1.2 数据对账1.3 性能监控2、告警3、多数据源3.1 规则引擎3.1.1 Sql模板3.1.2 元数据3.1.3 自定义模板3.2 执行引擎3.2.1 Sql执行3.2.2 直接获取数据量3.3 算法执行引擎3.4 多数据源4、数据校验

2020-10-18 17:52:31 905

原创 数据仓库【实时数仓】

1、数据仓库简介2、数据仓库的发展3、数据仓库建设方法论3.1 面向主题3.2 为多维数据分析服务3.3 反范式数据模型4.数据仓库架构的演变4.1 离线大数据架构4.2 Lambda 架构4.3 Kappa 架构4.4 Lambda 架构与 Kappa 架构的对比5.实时数仓案例5.1 整体设计5.2 数据模型5.3 数据保障6. 实时数仓与离线数仓的对比

2020-10-17 21:59:54 4420 1

原创 数据仓库【实时数仓】

一般情况下可以分为 基础指标(原子指标)、复合指标、派生(衍生)指标 基础指标:指表达业务实体原子量化属性的且不可再分的概念集合,如交易笔数、交易金额、交易用户数等。 复合指标:指建立在基础指标之上,通过一定运算规则形成的计算指标集合,如平均用户交易额、资产负债率等。 派生指标:指基础指标或复合指标与维度成员、统计属性、管理属性等相结合产生的指标,如交易金额的完成值、计划值,累计值、同比、环比、占比等。 ...

2020-10-17 13:57:46 1164

原创 数据仓库【主数据】

1.主数据的定义 主数据(MD-Master Data)指系统内或系统之间的共享数据。2.主数据的特征 主数据是具有共享性的基础数据,可以在企业内跨越各个业务部门被重复使用的,因此通常长期存在且应用于多个系统。由于主数据是企业基准数据,数据来源单一、准确、权威,具有较高的业务价值,因此是企业执行业务操作和决策分析的数据标准。3.主数据管理的四大要素 集成、共享、数据质量、数据治理 主数据管理要做的就是从企业的多个业务系统中整合最核心的、最需要共享的数据(主数据),集

2020-10-16 09:19:32 1023

原创 数据仓库【主题域划分】

1.关于主题 数据仓库中的数据是面向主题的,主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。如财务分析就是一个分析领域,因此这个数据仓库应用的主题就为“财务分析”。2.关于主题域 主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确定的主题的边界。)3.关于主题域的划分 主题域的确定必须由最终用户和数据仓库的设计人员共同完成的, 而在

2020-10-15 20:38:57 1670

原创 数据仓库【事实表,维度,度量,指标之间的关系】

事实表:每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如销售商品所产生的数据,与软件中实际表概念一样。 维度:说明数据,维度是指可指定不同值的对象的描述性属性或特征。例如,地理位置的维度可以包括“纬度”、“经度”或“城市名称”。“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”。 指标:衡量数据,指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以关联指标“人口”,其值为具体城市的居民总数。 度量:事实表和维度交

2020-10-15 09:09:31 1832

原创 数据仓库【数据治理概述】

01、数据治理、数据管理与数据管控 在日常工作中,数据“治理”、“管理”和“管控”常常被“混搭”。这种混搭,在不同的文件、报告、沟通层面,可能造成对数据工作的歧义,具体到谁来做、做什么、怎么做,特别需要概念层面澄清。1.数据治理 是什么:事实上,治理面对的更多是战略层面、组织层面、制度层面的事务,是“make sure it’s be doing”,确立“什么样的决策需要在什么层级制定”。所以,数据治理是一个相对高阶的概念。 谁来做:对应的是一个“数据治理委员会”级别的机构,由

2020-10-14 21:57:57 2462

原创 数据仓库【数据管理】

1、定位 Apache Atlas:Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 Linkedin WhereHows:WhereHows是LinkedIn公司为了方便员工发现公司内部数据、跟踪数据集移动、查看各种内部工具和服务的动向,而开发的用于大数据发现和管理的工具。它从不同的源系统中采集元数据,并进行标准化和建模,从而作

2020-10-13 20:28:57 376 1

原创 数据仓库【Date Vault 建模】

​ Data Vault(DV)模型是用于企业级的数据仓库建模。由Dan Linstedt在20世纪90年代提出(http://www.danlinstedt.com)。最近几年,Data Vault模型获得了很多关注,并在BI社区里拥有了一批追随者。Dan Linstedt将Data Vault模型定义如下:Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建

2020-10-13 09:29:47 1205

原创 数据仓库【数据质量】

1、基本概念数据质量:一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于:将维度与业务需求相匹配,并且划分评估的先后顺序;了解从每一维度的评估中能够/不能够得到什么;在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序。数据质量检核主要分为以下规则维度:完整性(Completeness):用来描述信息的完整程度。唯一性(Uniqueness):用来描述数据是否存在重复记录,没有实体多余出现一次。有效性(Validity):用来描述模型或数据是否满足用户定义的条

2020-10-12 21:36:28 1405 1

原创 数据仓库【多维分析】

1、BI1.1 BI 技术2、OLAP基本操作和类型2.1 OLAP基本操作2.2 OLAP分类3、OLAP数据库选型3.1 Presto3.1.1 概念3.1.2 presto架构(master+slaver模式)3.1.3 Presto应用场景3.2 Druid3.2.1 概念3.2.2 Druid架构3.2.3 基本特点3.2.4 应用场景3.2.5 Druid案例3.3 Kylin3.3.1 概述3.3.2 kylin特性

2020-10-12 21:13:03 2530

原创 数据仓库【分层架构】

1.为什么要分层2.Inmon与Kimball3.CIF 层次架构3.1 ODS(Operational Data Store)3.2 DWD(Data Warehouse Detail)3.3 DWS(Data Warehouse Service)3.4DM(Data Market)4、数据模型4.1 数据模型的作用 4.2 模型设计的基本原则5、补充说明

2020-10-12 09:51:33 1079 1

原创 数据仓库【Kimball vs Inmon】

1.概述2.什么是Kimball2.1 概念2.2 流程3.什么是Inmon3.1 概念3.2 流程4.特征对比4.1 特性4.2 优劣比较5.具体例子5.1 数据5.2 对比5.2.1 Inmon 模式:5.2.2 Kimball 模式6.总结

2020-10-11 23:26:40 1326

原创 数据仓库【范式建模】

1.概述 数据仓库这个概念是由 Bill Inmon 所提出的、他在 "Build the Data Warehouse" 一书中所提出了数据仓库的定义。 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2020-10-11 19:49:34 1118

原创 数据仓库【纬度建模】

一、基本概念1、基本概念2、事实表2.1 事实表概述2.2 事实表粒度 2.3 事实表设计原则2.4 事实表的分类3、纬度表3.1 退化维度(DegenerateDimension)3.2 缓慢变化维(Slowly Changing Dimensions)4、粒度5、维度建模流程5.1 确认业务过程5.2 确认粒度5.3 确认维度5.4 确认事实二、建模方法1、维度模型1.1 星型模型1.2 雪花模式1.3 星座模式

2020-10-11 14:18:14 989

原创 数据仓库【数仓模型】

1、为什么需要数仓模型2、数据仓库建模目标​​​​​​​3、数据仓库建模阶段划分4、数据仓库建模方法4.1范式建模法(Third Normal Form,3NF)4.2维度建模法4.3 实体建模法

2020-10-11 12:33:57 726 1

原创 数据仓库【数据同步&ETL】

* ETL数据同步之工具(Sqoop、DataX、Kettle、Canal 等);* ETL数据同步之语言;* ETL数据同步之源数据类型;* ETL数据加载策略;* ETL数据加载策略【增量表详解】* ETL数据加载策略【拉链表详解】

2020-10-11 12:06:28 633

原创 数据仓库【基础架构】

1、基本概念1.1什么是数据库1.2 什么是数据仓库1.3 数据库(OLTP)与数据仓库(OLAP)的区别2、基础架构3、架构演进4、逻辑分层5、数据调研6、主题域划分7、数仓规范8、数据治理9、数仓理念

2020-10-11 10:56:24 594

原创 数据仓库【书籍推荐】

1.数据仓库生命周期工具箱(第二版) 告诉你数据仓库从0到1都有什么流程,更多的是管理流程,每个阶段有什么样的文档。2.数据仓库工具箱-维度建模权威指南(第三版) 告诉你维度建模的表该如何设计,有坑了怎么解决。3.数据仓库ETL工具箱 告诉你模型建好了,ETL到底如何实施,ETL到底怎么设计,才能把数据仓库建好。...

2020-10-10 20:18:35 707

原创 数据仓库【人物篇】

数据仓库领域,在业界有几位公认大牛。第一位 William H. (Bill) Inmon, 数据仓库之父,开山鼻祖,著书立说,培训演讲,出版了许多书。 我在这里推荐Building the Data Warehouse这本书,第四版出版于2005。他推崇使用Corporate Information Factory(CIF)的数据建模方法(使用范式模型构建企业数据仓库+各维度模型构建的业务主题数据集市),最近在新的数据仓库架构和实施方面和后起之秀Dan Linstedt合作推动新的...

2020-10-10 20:16:12 329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除