2021年09月_不二人生

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创数仓建模—事实表

事实表在ER模型中抽象出了有实体、关系、属性三种类别，在现实世界中，每一个操作型事件，基本都是发生在实体之间的，伴随着这种操作事件的发生，会产生可度量的值，而这个过程就产生了一个事实表，存储了每一个可度量的事件，所以事实表本质上是反映一个个事件的，例如下单事件，度量就是下单的金额，事实表的特点就是增长迅速，且主要以数值进行记录在构建数据仓库总线矩阵完成后，可着手事实表和维度表的设计。数仓总线矩阵里每个业务过程都会生成至少一张事实表（识别业务过程的本质就是识别要构建的事实表），因为有可能一个原子事件涉及

2021-09-23 15:52:53 62822 2

转载 Data Lake

Data LakeData Lake is a term that’s appeared in this decade to describe an important component of the data analytics pipeline in the world of Big Data. The idea is to have a single store for all of the raw data that anyone in an organization might need to

2021-09-14 10:22:16 61787

原创数据湖初识(01)

数据湖初识近两年，为什么都开始谈论起 Data Lake 这个”新名词”了？先说说我的想法，其实还是用户需求驱动数据服务，大家开始关注 Data Lake 的根本原因是用户需求发生了质变，过去的数据仓库模式以及相关组件没有办法满足日益进步的用户需求。数据湖概念的诞生，源自企业面临的一些挑战，如数据应该以何种方式处理和存储。最开始，企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。那么到底是什么样的需求和挑战驱动了技术的变革，从而导致了新技术的产生呢数据湖的定义Wikipedia上说数

2021-09-13 11:22:56 61770

原创数仓建模—建模工具PDMan(CHINER) 入门介绍

PDMan数仓建模工具工欲善其事，必先利其器，所以开始数仓建模之前我们还是要选择一个合适的建模工具，江湖上混怎么能没有一个响亮的名号和趁手的武器呢，PDMan就是我们要介绍的工具。后面我们还会介绍其他建模工具，你选择一个合适的就行。PDMan是一款开源免费的数据库模型建模工具，支持Windows,Mac,Linux等操作系统，是PowerDesigner之外，更好的免费的替代方案。他具有颜值高，使用简单的特点。包含数据库建模，灵活自动的自动生成代码模板，自动生成文档等多种开发人员实用的功能。PDMan

2021-09-10 16:08:36 64628

原创数仓建模—自助分析实战

自助分析今天老板说了一句话，我第下了我高昂的头颅，陷入了深思，老板说我看到报表上的数据已经很多了，但是有时候我想看一个指标还是没有，我像自己操作一下看起来也不抬灵活和方便。各方的心声业务人员Excel很熟悉了，但是处理数据或者制作图表还是太麻烦了,经常需要等各处的数据汇总后才能开始干活,也就是说他们必须等到我们的数据出来，他们在我们做的数据的基础上，开展进一步的数据分析报表数据很多，但是有时候还是不能覆盖，例如我今天有个临时想法我想验证一下。分析人员无穷无尽的报表开发需求、人手不够、无

2021-09-09 14:14:17 61833

原创数仓建模—元数据管理

元数据管理元数据在数据仓库中远比操作型环境中更加重要，因为数据仓库是一个不断迭代升级并且数据量也是远远大于操作型数据库的，所以我们需要元数据进行更好的监控和管理。元数据通常定义为"关于数据的数据",在数据仓库中是定义和描述DW/BI系统的结构，操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期，使用元数据驱动数据仓库的开发，使数据仓库自动化，可视化，管理这些附加MetaData信息的目的，一方面是为了让用户能够更高效的挖掘和使用数据，另一方面是为了让平台管理人员能更加有效的做好系统的维护管理工

2021-09-05 11:00:43 62733

原创数仓建模—数据集成

数据集成其实数据集成是数仓的一个基本特点，这里我们再回顾一下数仓的特性，或者说是我们再回顾一下数仓的定义，面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策的数据系统。今天我们学习的数据集成指的是“集成的” 特性，说到数据集成我们就不得不说我们为什么要建设数仓了，关于数仓是是什么或者是服务于什么的我们已经说过了，那就是数仓主要是用来做决策的，也就是从数据的角度出发去做决

2021-09-04 10:15:58 61999

原创数仓建模—OneID落地实践

OneID前面我们学习了ID Mapping，包括ID Mapping 的背景介绍和业务场景，以及如何使用Spark 实现ID Mapping，这个过程中涉及到了很多东西，当然我们都通过文章的形式介绍给大家了，所以你再学习今天这一节之前，可以先看一下前面的文章Spark实战—GraphX编程指南数仓建模—ID Mapping(上)数仓建模—ID Mapping(下)在上一节我们介绍ID Mapping 的时候我们就说过ID Mapping 是为了打通用户各个维度的数据，从而消除数据孤岛、避免

2021-09-03 18:08:28 63796

原创数仓建模—ID Mapping(下)

ID Mapping(下)上一节我们已经讲过什么是ID Mapping 了，顾名思义我们知道ID Mapping 的操作对象是ID，目标或者是动作是Mapping，也就是说我们要做的事情其实就是想把不同平台不同设备上的ID 打通，从而更好的去刻画用户，也就是说我们希望能打通用户各个维度的数据，从而更好的去服务业务服务用户。上一节我们讲了常见的ID,例如登陆ID、设备ID 还有例如身份证号、手机号码等一些列的ID，都可以去标示一个用户，接下来我们就看一下如何去做ID Mapping，关于理论我们不多说。

2021-09-02 18:21:15 63061

原创 Spark—GraphX编程指南

GraphX编程指南GraphX 是新的图形和图像并行计算的Spark API。从整理上看，GraphX 通过引入弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark RDD：一个将有效信息放在顶点和边的有向多重图。为了支持图形计算，GraphX 公开了一组基本的运算（例如，subgraph，joinVertices和mapReduceTriplets），以及在一个优化后的 PregelAPI的变形。此外，GraphX 包括越来越多的图算法和 bu

2021-09-02 15:12:02 61705

TA关注的人