![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据中台建设
文章平均质量分 80
孟知之
知之为知之
展开
-
【数据中台】初探数据湖-iceberg
文章目录1. 什么是数据湖2. iceberg的特性2.1 优化数据入库的流程2.2 支持更多的分析引擎2.3 统一数据存储和灵活的文件组织2.4 增量读取处理能力3. 数据湖技术催生的新架构3.1 原有方案3.2 新方案4. 新架构应用场景1. 什么是数据湖准确来讲就是数据入湖中间件技术,它并不是一个存储或者计算引擎,它的存在就是更好的将存储和计算解耦,构建与存储格式之上的数据组织方式,并提供ACID(atomicity原子性、consistency一致性、isolation隔离性、durabilit原创 2021-08-27 15:30:50 · 1013 阅读 · 2 评论 -
【数据中台】如何提升数据质量
首先,需要强调的是,数据质量的保证紧靠技术是远远不够的。在实际工作中,在整个数据质量的控制过程中,人的影响最大。所以,要想真正长期保证数据的高质量,可以分事前、事中、事后三个阶段来保障的。事前:建立数据标准,明确数据的定义。事中:建立一个可复用的数据收集,数据预处理和数据维护流程,来应对不断变化的企业内外部因素,在数据预处理流程中设立多个性能监控点(可参考本人写的数据稽核文章)事后:建立流程与制度,并对流程不断进行改善和优化,质量改善非一朝一夕,而是持续的过程,制定数据采集、存储、集成、分析原创 2021-06-28 11:31:29 · 1070 阅读 · 0 评论 -
【数据中台】数据质量原因分析
在进行数据统计时,经常会对数据的准确性产生质疑,如果出现较为明显的偏差,就很容易发现数据是不对的。但如果数据只有小幅度的偏差,就很难感受到,造成数据质量的原因有几种,下面分别说明:1. 网络异常网络异常是导致数据质量的直接原因之一。举几个栗子,比如我们在使用APP时,可能因为网络异常,导致用户的操作行为并没有被及时发送到统计服务器端;或者这些服务是SaaS服务,在一些网络的高峰期,此时有大批量的用户向服务提供商发送行为数据,这样就容易导致网络拥堵,就像春运期间在12306网站抢车票一样,容易导致某原创 2020-08-26 20:14:29 · 601 阅读 · 0 评论 -
【数据中台】数据质量稽查的一些思考
1.数据质量的重要性在日常工作中,我们经常会遇到各种数据问题。往往大项目会有专人去做持续的数据治理工作,而体量较小的项目其实也可以做一些轻数据治理-数据质量监控工作。数据最终是要服务于业务价值的,那么保证数据质量一定是数据分析和数据挖掘结论有效性和准确性的基础,也是数据驱动决策的前提。数据质量,主要从四个方面进行评估,即完整性、准确性、一致性和及时性。完整性:指数据的记录和信息是否完整...原创 2020-04-02 00:43:24 · 3593 阅读 · 0 评论 -
【数据中台】维度建模指北
文章目录1. 建模流程2. 迭代流程3. 维度表4. 事实表1. 建模流程确认每个主题域,明确范围,即事实表清单。根据业务流程(比如投保->承保->…)拆分相关实体确认维度:维度退化:who?when?where?根据不同实体内容(比如域中完全不相关的独立实体)拆分不同事实表根据粒度, (粒度,一行数据代表:一条保单?一条批单?一天的保费?)对事实表进行拆分(比如主表,明细表等)2. 迭代流程根据需求迭代:事实表关联实体清单:按需添加相关的实体;在事实表中按需添加属性和原创 2021-05-01 12:37:19 · 1036 阅读 · 0 评论 -
【数据中台】sqoop使用模板
前段时间,有一个临时数据分析需求,需要将数据从oracle导到大数据平台,自己请拿到了同事给的模板,利用sqoop将数据导入hive。同时也在网上学习了一下增量导入,并记录下来。sqoop非增量导数据模板!/bin/bash JDBC=oracle:thin:@192.168.XXX.XXX/orcl USERNAME=admin 模板sqoop job -delete torde...原创 2020-01-13 11:10:17 · 230 阅读 · 0 评论 -
【数据中台】大数据常用hadoop组件
文章目录1.Hadoop1.1 定义1.2 特点优点1.3Hadoop优化1.3.1Mapreduce跑的慢的原因1.3.2优化方法2.HDFS2.1 HDFS设计目标2.2 HDFS的重要特性2.3 优缺点2.4 小文件解决方法3.HBase3.1特点3.2架构4.Zookeeper4.1 工作机制4.2特点4.2 选举机制4.3监听器原理4.4部署方式有哪几种?集群中的角色有哪些?集群最少需要...原创 2020-02-27 00:33:49 · 1524 阅读 · 0 评论 -
【数据中台】数据仓库设计规范
为了解决数据仓库建设过程中出现的各种痛点,我们从模型与规范两个方面进行建设,并提出设计统一归口。1.模型规范化模型分层、数据流向,从而降低研发成本,增强指标复用性,并提高业务的支撑能力。1.1.模型分层为了保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长,我们将分层进行统一定义为四层:ODS(OperationalDataStore):定义为存储层,仅...原创 2020-02-29 11:37:49 · 3981 阅读 · 1 评论 -
【数据中台】什么是数据中台
1.什么是数据中台数据中台是一个体系,一个数据服务工程,数据服务工厂利用数据作为原材料来生产新的数据产品,最终在数据服务商店中销售这些数据产品。总的来说,数据中台就是一个data API工厂,加速从数据到价值的过程,使业务和数据形成闭环,形成生态。2.解决问题:应用开发和数据开发不协同效率问题为什么应用开发一个报表需要几十天的时间为什么不能实时获得用户推荐清单协作问题...原创 2020-03-08 13:03:53 · 851 阅读 · 0 评论 -
【数据中台】数据集市和数据仓库之间有什么关系
文章目录1.数据仓库与数据集市的区别1.1 数据仓库1.2 数据集市1.3 主要区别2.如何建立数据集市1.数据仓库与数据集市的区别1.1 数据仓库数据仓库是一个面向主题的、集成的、相对稳定的 、反映历史变化的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据...原创 2020-03-09 00:01:05 · 2414 阅读 · 0 评论 -
【数据治理】数据治理工具-元数据管理
数据治理里面最关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等。元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序...原创 2020-04-07 18:40:33 · 6053 阅读 · 0 评论 -
【数据中台】学习摘录-纵观数据中台
文章目录1. 做数据中台的前提1.1 那如何如何挖掘业务的痛点呢?1.2 推进数据中台项目落地这段时间将极客时间上的网易的《数据中台实践》与《阿里的大数据之路》粗略的看了一遍(两本书写的内容涉及面非常之多,也有很多细节没有展开,但都是非常好的数据中台指南,两本内容侧重点不同,网易的更偏实践,阿里更偏理论,都适合放在案台用作工具书翻看),也将整个数据架构梳理了一遍,对数据中台有了更深层次的理解,也看清了数据中台在整个公司中的战略位置。下面我将梳理一些我所学到,理解的数据中台及实现方案。首先,先说明结论,数原创 2020-06-07 12:04:39 · 659 阅读 · 0 评论 -
【数据中台】学习摘录-数据采集
文章目录1. 数据采集1.1 日志采集1.2 数据同步1.2.1 批量数据同步1.2.2 实时数据同步1.3 数据同步遇到的问题与解决方案1. 数据采集1.1 日志采集数据采集为大数据系统体系的第一环,建立一套标准的数据采集体系方案,可以全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。数据采集分为日志采集和数据库同步两部分,其中日志采集主要指的是埋点数据,其数据来源可来自浏览器与无线客户端。《阿里大数据之路》书中分享了两个案例,分别对应了两个思想。日志分流与定制处理考虑到阿里日原创 2020-06-14 18:47:02 · 1605 阅读 · 0 评论 -
【数据中台】学习摘录-数据中台建设
文章目录1 数据中台建设1.1 数据只处理一次1.2 数据即服务1.3 数据中台方法论总结1 数据中台建设1.1 数据只处理一次在未做数据中台之前,每个部门都会有一些小的数仓去完成本部的数据分析任务。而数据中台就是要在整个业务形成一个公共数据层,消灭这些跨部门的小数仓,实现数据复用,强调的是数据只加工一次。那么要实现数据只加工一次,需要做五个方面的工作:分主题域管理命名规范定义指标一致数据模型复用数据完善1.2 数据即服务数据中台的数据用该是通过API接口的方式被访问。这么做有什原创 2020-06-19 16:17:41 · 480 阅读 · 0 评论 -
【数据中台】学习摘录-关键支撑技术
文章目录1. 元数据管理1.1 数据地图1.2 指标管理1.2.1 现状:指标混乱1.2.2 规范化定义指标1.2.3 构建全局的指标字典2. 数据模型设计3. 数据质量3.1 提高数据质量方法4. 成本优化5. 数据安全6. 数据研发流程管理1. 元数据管理数据中台的支撑技术大致可以分为元数据管理,指标管理,模型设计,数据质量等。首先先说说在数据中台占首要位置的元数据管理。在提到数据中台的构建,必然提到元数据,那元数据都涉及什么呢?比如,为了确保全局指标的业务口径一致,要把原先口径不一致的、重复的指原创 2020-06-22 15:17:36 · 3430 阅读 · 0 评论