自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 14.数据中台-结束篇

一、重点回顾该专栏主要讲述了数据仓库标准化和工具体系建设两大块内容的理论和实践,其中标准化的内容适用于离线数仓和实时数仓建设,而工具体系建设则重点阐述了离线大数据管理平台和数据自助分析系统。让我们来总结和回顾下每个章节的重点: 1.标准化 1).《数据规范化建设-整体方案》章节对当前数仓的数据不统一,数据重复建设,数据定位困难的痛点进行深入分析,提出核心解决思路为:从 管理组织规范->数据定义规范->数据建模规范->研发流程规范->规范化推进 分步...

2022-05-19 20:10:40 168

原创 13.数据中台-数据自助分析系统

《数据自助分析系统》一、背景 之前章节主要阐述了大数据开发平台:数据仓库管理平台中的内容,大数据开发平台帮助研发提高开发效率,并规约数据的规范化。对开发后的数据结果落入mysql ,clickhouse等存储中供其他应用继续使用与分析,其中数据报表展示方面的应用居多,若对每一份数据均做定制化开发,则存在如下几个问题: (1)报表开发成本高:数据报表展示需求多,对于一个简单的报表展示,需要编写前端页面,action,service,dao,entity,至少需要5hou...

2022-05-19 20:08:59 767

原创 12.数据中台-数据仓库管理平台-数据服务

《数据服务》 一、背景:数据在经过ETL后,会导出到各自业务组中,进行后续实时数据分析,但一旦数据量大后,各组需要根据业务特点,花费大量精力做性能调优,引入大量分析框架。随着数据量的增长,目前存在较多性能不如人意的数据查询服务,因此需要提升数据仓库管理平台的实时数据服务整合能力,统一解决数据从离线的数据仓库转换为在线数据服务的问题,进一步降低整体开发成本。 二、目标:完善实时数据服务整合能力,统一解决数仓到数据服务的开发成本问题和实时分析性能问题,具体为: ...

2022-05-19 20:07:29 292

原创 11.数据中台-数据仓库管理平台-数据查询

《数据查询》 数据查询旨在提供界面化查询入口供数据分析人员对数仓中的数据进行OLAP即席分析与探索。一、功能设计:将整个界面总体切分为2大块: 1界面左侧:面板左侧提供数仓各数据库名称,点击某个数据库名称后展开表名称,点击表名称后展开字段名称和字段类型,通过这种层级管理关系,使得数据分析人员能清晰直观查找到需要使用的库表; 2界面右侧:面板右侧则是提供给数据分析人员编辑和执行SQL的地方: a.SQL编辑界面:数据分析人员在界面上编辑SQL; ...

2022-05-19 20:05:54 586

原创 10.数据中台-数据仓库管理平台-数据管理

《数据管理》 数据管理即元数据管理,又称为全局数据定位,旨在对开发的规范化指标和表的一系列全局信息进行查询,使得开发人员能快速定位数据,形成我们的数据地图。数据管理模块分为四个子模块:指标管理、数据表管理、数据血缘分析和巡检工具,每个模块的作用请参考《数据仓库管理平台-整体方案》章节中的说明,这里不再赘述。 由于指标管理和数据表管理子模块和数据开发模块中的指标管理和数据表管理子模块类似(前者为所有项目的表和指标的查询,后者为单个项目维度的指标和表的增,删,改,查的管理功能),在实现...

2022-05-19 20:04:09 473

原创 9.数据中台-数据仓库管理平台-数据开发

《数据开发》 为提高数据研发的效率,数据平台提供了数据研发集成开发环境,通过对数据开发规范化流程制定,多引擎混编工作流支持等来提升在全域数据开发的自动化能力和执行效率。下面我们从数据开发规范化流程、功能设计和实现方式几个方面进行阐述:一.数据开发规范化流程 在规范化章节中讲述的《研发流程规范》是从开始的需求提出到最终上线的一系列规范化流程,而这里的数据开发标准化流程是指通过工具化,将《研发流程规范》中“开发测试”和“模型上线”这两个环节提效,同时保证数据表和指标的规范化...

2022-05-19 20:02:11 379

原创 8.数据中台-数据仓库管理平台-整体方案

《数据仓库管理平台-整体方案》 数据仓库管理平台作为一站式大数据研发平台,承载着数据规范化和研发效率提升的职责,我们设计的四个核心模块为数据开发,数据管理,数据查询,数据服务,分表解决了不同的问题,另外还涉及数据流程中任务的运维监控模块,任务调度系统交互等其他模块功能,设计的整体架构图如下:1.数据开发模块: 为提高数据研发的效率,数据仓库管理平台提供数据研发集成开发环境,并设计一套研发标准流程,首先需要新建数据项目,在项目下再挂接多个业务流程,在每个业务流程中进行表的规范化..

2022-05-19 19:58:19 439

原创 7.数据中台-工具体系建设-整体方案

《整体说明》在规范化章节中,我们提到了工具的配合使用,整个规范化开发过程使用到如下3个工具,且每个工具的定位和作用都不相同:1.需求管理平台:该平台贯穿着从需求提出,模型设计、开发测试、模型上线的整个开发流程,作为线上化工具管理着不同需求的完整生命周期,是研发流程规范化的强有力保障,同时提高需求管理的效率;2.数据仓库管理平台:该平台旨在提高数据研发效率,同时保证数据表,指标的规范化和数据建模规范化,由于部门以离线数据分析为主,所以该平台是一站式离线大数据开发平台,实时数仓暂不考虑在内,这里需要

2022-05-19 19:56:02 826

原创 6.数据中台-规范化建设-规范推进

《规范推进》 在之前阐述的《数据定义规范》章节中,明确了表和指标的规范化,使得开发人员能见名知意;在《数据建模规范》章节中对存储规范和建模规范进行约束,采用标准分层策略进行数据存储,采用维度建模进行指标计算;在《数据研发规范》章节从需求调研、模型设计、开发测试、模型上线四个环节来确立符合标准软件研发流程;在确立了种种规范之后,我们需要对现有的数仓中的数据和后续的增量数据来使用这种规范,达到整体数仓数据的规范化,所以,本章节的重点为如何进行规范的推进:即对上述定义的规范进行推进,并建立配套工...

2022-03-08 18:32:07 1629

原创 5.数据中台-规范化建设-研发流程规范

《研发流程规范》 经过前面章节,我们明确了表和指标的规范,数据存储和建模规范,但这还不足以消除掉数据重复建设的风险,我们还需要从整个研发流程上进行规范,研发流程这块遵循了目前标准的软件研发流程, 整体流程涉及需求调研、模型设计、开发测试、模型上线四个主要环节。 在需求调研阶段,研发人员要根据需求说明书中来理解业务方的需求,将自己所理解的需求和业务方达成一致,再结合目前系统中存在的数据,对整个需求进行分析和梳理,确保数据能满足需求,形成最后的需求调研文档; 需求调研阶段完...

2022-03-08 18:30:03 453

原创 4.数据中台-规范化建设-数据建模规范

《数据建模规范》 上一章节中,我们阐述了数据定义上的规范化制定方法,使得我们在看到数据表和指标的时候能清晰知道其代表的业务意义,而本章节的《数据建模规范》会指导我们如何有组织有条理的建设和维护这些数据,使得我们能快速定位到数据,避免烟囱式开发,降低研发成本。就像杂乱的图书散落在地,我们需要像图书馆那样,通过分类,索引等管理机制,有效管理书籍; 举个例子:存在如下三个基表:账户表,订单表,物流表,其中业务1统计的指标从账户表,订单表而来,业务2统计的指标从账户表,物流表而来,业务...

2022-03-08 18:27:49 2825

原创 3.数据中台-规范化建设-数据定义规范

《数据定义规范》 上节我们深入分析了痛点产生的原因,并规划了阶段式的整体解决方案,主要是:从 管理组织规范->数据定义规范->建模规范->研发规范->规范化推进 分步骤有序建立数据规范并落地。接下来我们对每个环节进行详细说明,其中“管理组织规范”已经在上节阐述了其必要性和职责范围,本章节就不再赘述了,本节重点放在“数据定义规范”这个环节。 数据定义规范的作用是使得数据在定义上进行规范,各个业务线对该规范达成一致,来更好的进行数据的管理,加速数据定位,消除数据的二义性。...

2022-03-08 18:24:39 672

原创 2.数据中台-规范化建设-整体方案

《整体方案》我们回顾上个章节所阐述的痛点,提炼下来,主要是:数据不统一,数据重复建设,数据定位困难,深入分析原因,可归纳为如下几点:1.管理上无专门数据组来承载数据资产的维护,常用数据沉淀的职责:各个业务组承担着各自的对外数据开发的职责,他们有权限随意建表和数据流程,无收拢口径;2.数据定义缺乏规范:数仓里的数据杂乱无章,表和字段命名不规范,指标计算不统一,导致无法得知该数据的属性,用途,所以相同的业务想要使用的时候,只能从最底层创建相同的表,进一步加大了重复表带来的存储和管理成本;3.

2022-03-08 18:19:50 828

原创 1.数据中台-开篇

Hi大家好,我是大樊,一枚热爱数据的,具有8年开发经验的程序猿,目前就职于一家中型互联网公司,主要负责部门内的数据仓库建设,历经多年时间,从0到1建设了整个部门的数据规范化流程和配套的仓库管理工具体系,也沉淀了很多的实战经验,在这里分享给大家。 说到数据仓库,大家一定不陌生,它的官方介绍 :是一个面向主题的、集成的、相对稳定的数据集合,用于支持管理决策目的而创建的,我们在生产环境中一般会将数据导入到数仓,然后进行我们的业务数据流程的研发,最后输出最终数据来指导我们的企业决策,帮助企业进行运营...

2022-03-08 18:17:15 367

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除