数据仓库
文章平均质量分 85
以阿里OneData体系为出发点,谈如何搭建一个完整的数据仓库平台。仅从笔者个人角度出发,收集相关素材,进行二次整理,并非原创。
晓阳的数据小站
欢迎大家关注微信公众号:晓阳的数据小站,一同探索大数据的技巧~
展开
-
流批一体不只有Flink,还有实时数据模型
|0x00 从流批一体诞生的必然性说起通常来讲,数据仓库的建设,都是以离线作为主要的密报,下游的应用,不论是报表还是接口,所提供的数据也大多是T-1时效性。但伴随着业务的变化,当离线做到没什么可以继续做的时候,实时就会被拿出来,作为新一个阶段的目标进行攻克。在流批一体建设之前,这种实时诉求通常会开发成分钟级的任务,通过近实时的方案来解决业务的问题,但分钟级会带来诸如任务过多、资源挤占较大、无法支持复杂逻辑等问题。因此专门支持实时计算的框架,比如早期的Storm,能够尝试从纯实时的角度解决业务问题,就原创 2021-12-21 18:54:20 · 1465 阅读 · 0 评论 -
数据能力的构建过程
|0x00 数据能力是什么我们经常问自己“什么是数据能力,数据能力如何构建”?我想,没有哪个业务,一开始就是明确知道自己想要什么,都是经过一定时间的摸索之后,才能积累出丰富的经验,这时候数据能力才有了勇武之地。比如电商行业中,OneData方法形成之后,在其他的电商和类电商业务中,就可以快速铺开应用;而随着越来越多的企业加入到数字化的浪潮,云上中台的概念也就逐步落地。因此,理解数据能力的构成,懂得每个阶段数据所能够发挥的作用,就是数据同学所需要具备的基本能力,也是我们日常工作时进行规划的前提。|0x原创 2021-09-14 18:34:22 · 252 阅读 · 0 评论 -
数据开发的技术提升之道
|0x00 数据开发数据开发在大型互联网公司中,通常是贴近业务的角色,因为数据相关的工具,比如开发工具、监控工具、血缘工具、质量工具,都做的非常完善了,甚至能够对外提供商业化产品。在这种情况下,数据开发的工作,从偏底层的大数据引擎建设,提升到了面向业务的数据仓库 + 数据分析角色,也就是从幕后逐步的走向前台,最终目标是以数据科学家为导向。在这种情况下,如果论常规的技术提升,那么除了精进SQL技巧之外,恐怕很难有其他突破的方式,本文就探讨一些与数据开发相关的技术,从这些方向可以尝试进行突破,一样能够做的非原创 2021-09-07 10:38:44 · 905 阅读 · 0 评论 -
数据开发,如何平衡效率与质量
|0x00 质量VS效率我一直有一个观点:“数据模型设计的是商业模式,是产品逻辑;数据结果反映的是业务实操,是实际现状。”数据开发的效率,是如何尽快的将产品设计、业务过程,转换为数据模型;数据开发的质量,则是如何尽快的将数据加工过程中的问题,识别出来。向业务交付的内容,是开发的内容;而如果开发的时候,忽略质量的问题,虽然交付的时候不会有感知,但往往会在排查问题阶段,把这些时间加倍的补偿回来。很多时候,开发同学会觉得,做这么多质量工作是“无效”的,因为很多问题,并不需要数据同学对业务有太深入的了解,如果原创 2021-08-31 08:10:35 · 412 阅读 · 0 评论 -
中台难,前台更难,为什么支持业务这么难
|0x00 拿结果,拿的是什么在“中台”如火如荼发展的这些年里,“前台”过的也并不舒服。尽管中台提供的能力在不断完善,但业务战场一日一变,仅买菜赛道,就有团购物流、即时物流、仓配物流、快递物流、分销物流等多种业务模式,在决出最终赢家之前,前台尚且不能自保,中台也无法发挥价值。在过去,非常成熟的电商体系,在前台战场上打赢了,中台才具备了长期存在的意义。时至今日,我们可以这么讲,前台依旧是非常重要的,决定了中台的存亡。在前台业务中,最重要的事情,就是“拿结果”。我们往往会讲,作为团队TL,要有“建团队原创 2021-08-12 18:12:02 · 285 阅读 · 0 评论 -
如何用科学的方法,保障数据准确性
|0x00 问题描述上周收到一位读者的询问:怎么保证数据的正确性?以下是原文:上游,会遇到根源性问题,比如客户端在数据上报时就传错的情况,比如手抖把下单时间不小心上报成了用户点击商品详情的时间.中游,指标的计算正确与否完全依赖于开发人员对于指标含义的理解以及业务方对于数据结果的敏感程度,一旦有一方出现问题即使指标统计错误也无人可以发现,甚至开发人员写错统计代码,或者由于字段的值异常, 代码没有处理好异常等等导致计算脚本异常中断,都会导致计算结果的偏差.下游,业务方看到指标时,可能也对指标的统计口径原创 2021-07-20 09:21:43 · 4067 阅读 · 0 评论 -
数据仓库有坑怎么办,如何从0到1来填坑
|0x00 什么是数据仓库的坑“填坑”是一个新人刚加入团队,或者是接手一个新业务,所以经常需要面对的事情。“坑”的出现,与历史业务的发展,密切相关。通常体现在:业务快速变动、人员快速流动、系统化建设能力弱、强行上马面子工程等情况。虽然数据开发人员能够意识到数据仓库规范性的重要,但迫于日常的数据开发压力,往往只能匆忙的制订一份规范,在实际开发过过程中,往往又无法完全照搬落实,因此形成了一个“不成熟”的数据仓库体系。这种数据仓库体系,最典型的特征,是找数据只能给表,无法通过规范自主查找;看逻辑只能问人,无原创 2021-07-06 08:28:40 · 270 阅读 · 0 评论 -
也谈数据治理
|0x00数据治理是什么数据治理,在不同行业的概念,可能不同。比如在国家标准化管理委员会发布《信息技术服务治理第5部分:数据治理规范》,从非常宏观的角度来制定,侧重于拉通概念和达成共识,像一种“国家标准”;《华为数据之道》是从企业数字化的角度切入下去,侧重数据治理体系和方法论,属于一种“管理方案”;而阿里推出的《大数据之路》一书,则在数据技术层面给出了有价值的指导,算是具体的“实现方案”了。DAMA(国际数据管理协会)给“数据治理”下的定义是:数据治理是对数据资产管理行使权力和控制的活...原创 2021-04-23 14:18:43 · 306 阅读 · 0 评论 -
数据建模实践
“一个好的数据模型,通过表名就应该了解它的涵义和使用方法。”|0x00 为什么要数据建模为什么要数据建模?这是一个互联网的时代,也是大数据的时代,数据的价值不言而喻。虽然大家都知道数据很重要,但如果数据不能得到很好应用,那么数据就没有价值,数据建模就是为了能够将数据的价值更好的挖掘出来,所进行的一系列工作。数据建模本身是一种组织、分析、存储、应用数据的方法论,尽然是一种方法论,那么就有衡量好坏的标准:性能、成本、效率、质量。因此,数据建模的工作,就是围绕这四个指标做出最优解而进行的努力。数据建模是原创 2021-02-23 20:06:54 · 451 阅读 · 0 评论 -
深入探讨数据测试
|0x00 数据测试模型通过之前的两篇文章,我们已经对数据测试有了一个初步的刻画,本文讲述一些更进阶的内容。因为测试通常要对研发环节有一定的入侵,如果测试的内容越多,势必影响到研发效率的提升,很容易造成测试与研发之间的对立,但如果不去做测试,那么数据的质量就会失去最后一道保护的屏障,同样不可取。数据质量是数据研发的生命红线,研发效率是数据研发的价值增量,都是需要兼顾的部分。因此,我们需要把数据测试进行切分,识别其中必要与非必要环节,通过保障必要的研发过程来实现落地,搞清楚谁、在什么时间、做了怎样的研发原创 2021-01-06 09:31:29 · 624 阅读 · 0 评论 -
浅谈数据测试
|0x00 “大数据测试”有一些人会有困惑:“大数据大数据,都这么大了,怎么测试?”过去的大数据开发,确实很少有测试,究其根本,数据是为业务服务的,而且数据量之大,往往不能像工程团队那样,构建一套完整的测试环境,只有上了生产才有数据可测。所以,我们通常情况下理解的数据测试,除了保障数据准时产出,也就是规范任务优先级之外,最常用的,就是给数据表配置监控任务,通常有这么几个规则:数据不为空:需要产出的数据分区下不能没有数据;字段不为空:某个字段在某个分区里,全部都是null,可能就是问题;主键唯一:原创 2021-01-06 09:30:58 · 1972 阅读 · 0 评论 -
系统思考数据质量
|0x00 质量标准体系在谈一件事情的质量时,我们通常会想起ISO的标准,例如ISO9000,如果一件商品被打上了ISO的标签,对于自己产品的质量,是一件最有说服力的证据。那么在数据领域有这种标准码?有,比如ISO8000、ISO9126、或者是GB/T36344-2018,但这些标准一来显得太过于“重”,二来理解和寻找资料也是困难重重,三是按照这些规范来落地也不太现。因此把其中精华的部分抽取出来,总结成几项大的原则,再根据公司的实际情况,补充细节部分,对于数据领域的从业者而言,更为切合实际一些。以I原创 2021-01-06 09:18:18 · 190 阅读 · 0 评论 -
理想的“数据中台”,是否真的存在?
欢迎关注公众号:晓阳的数据小站,获取更多数据情报!|0x00 从“中台”说起中台的“神话”,来自于2015年阿里那本《企业IT架构转型之道》的书,书中开篇就列举了芬兰的游戏公司Supercell的成功案例。在这个案例里,Supercell将游戏开发所需要的引擎、组件、UI等,打包成一系列的标准化模块,通过避免重复开发的方式,降低了游戏设计的开发成本。例如在卡牌游戏中,我们可以套用中世纪的叙事结构,也可以用二次元的视觉效果,或者是最近大火的《赛博朋克》故事内核,除了数值与UI的不同,游戏底层都是同一套东原创 2020-12-20 15:44:15 · 282 阅读 · 0 评论 -
由浅入深谈数据湖
欢迎关注:“晓阳的数据小站”,更多精彩文章,等着你!|0x00 什么是数据湖数据湖的概念最初是由大数据厂商提出的,可以简单理解为一个集中存储数据的数据库,不论是结构化数据or非结构化数据,海量数据or少量数据,都能够支持存储和计算。就像在湖中有多个支流进入一样,结构化数据、非结构化数据、日志数据、实时数据,都流入了同一种数据存储结构之中,并进行不同类型的分析处理,以指导做出更好的决策。数据湖通常采用Hadoop作为数据的承载对象,随着企业规模的扩大,不同类型的数据越来越多,最终所有企业或个人相关的数原创 2020-11-04 08:48:40 · 391 阅读 · 0 评论 -
数据模型如何论好坏
|0x00 数据模型的选择最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。如果论这四种方法,在设计思路上的好坏,那么各有千秋。但如果问,那种模型最为成熟,那么恐怕范式和维度就胜出了,而互联网行业几乎只能选择维度建模,因为它的实践经验是最多的。这就有点像软件或者框架的比较,Hadoop就一定好吗?Java就一定优于Python吗?并不是。但Hadoop一定最成熟,Java岗招聘人数最多。因为生态建原创 2020-08-14 18:04:35 · 675 阅读 · 0 评论 -
简单聊聊数据质量
|0x00 数据质量该怎么理解大多数数据的从业者,对“数据质量”并没有很深的理解,倒是在面试中经常被问起这个问题。之所以对于“数据质量”理解不深刻,也是因为没有亲身经历“资产损失”,没有站在台前,直面“用户”或者“客户”的不信任。数据质量其实是产品口碑的一部分,是“用户”或者“客户”信任产品的基石。如果一定要给数据质量下一个定义,我倾向于用三个“不”来总结,即“不丢失”、“不错误”、“不延迟”。如果引申到日常的架构中,就是代码逻辑正确、技术框架稳定可靠、按时保质交付数据。看起来定义简单,实则落地很有原创 2020-08-09 16:27:26 · 632 阅读 · 0 评论 -
简单说一说数据中台
中台的起源与疑惑“中台”某种意义上是一个正宗的中国概念,早在2015年,马老师访问过北欧的Supercell游戏公司之后,便提出了这个概念。随之而来的,是阿里带动的“大中台、小前台”运动。这个概念听起来还是非常不错的,因为整合技术力量,既能够有效降低研发成本,也能够带来业务上更多的试错机会。但当大家投入进去之后才发现,中台的建设成本如此之大,乃至于一般小公司无法负担起基础的成本。大公司倒是搞好了...原创 2020-04-21 09:16:50 · 550 阅读 · 0 评论 -
大规模需求协作的挑战与思路
(一)基本挑战概述互联网公司的典型业务场景下,一个需求会涉及到运营、产品、前端、后端、数据、测试等不同部门的配合,一个需求正常情况下都需要拆解成多个模块,而其中的一些模块可能还涉及到其他模块的功能,导致需求完成的子目标比预期的多很多,需求的管理工作就会变得特别困难。例如,产品根据运营同学的需要,设计了某款产品,能够看到运营指标的变化情况,大家在评审完需求后,发现了如下几个方面的问题:一...原创 2020-03-18 20:58:28 · 528 阅读 · 0 评论 -
有关大型数据仓库三大痛点的个人看法
有人说,数据仓库搭建失败的概率非常高,是ERP之后最不靠谱的大型项目之一。往往在项目立项的时候,我们会给老板呈现出一幅非常美的愿景图:响应快、业务驱动、智能化……但当项目上线之后,才会发现这个项目往往华而不实,要什么没什么,慢慢的投入就会逐步减少,直到项目陷入泥潭……那么数据仓库在搭建过程中,遇到的核心问题是什么,我们又是怎样应对这些核心问题的,今天就挑选三个代表性的问题,来进行一一的解答。...原创 2020-03-16 14:58:48 · 1991 阅读 · 1 评论 -
大数据系统下的数据安全注意事项
在大数据时代,越大的公司,面临的数据安全风险越高,简要而言,主要分为六个部分: 1. 后台被黑客攻击,例如SDK泄漏关键服务IP地址; 2. 数据被爬取风险,例如简历信息被外界抓取; 3. 内部使用风险,例如采集的用户数据是否存在泄漏风险; 4. 生态公司风险,例如收购的公司数据安全规范能够达成一致; 5. 开放数据...原创 2020-03-09 23:06:52 · 1158 阅读 · 0 评论 -
Data Vault模型初探
(一)Data Vault简介Data Vault模型自2001年起便被提出,原本用于在市场上作为表征系统的一个营销术语。Data Vault的翻译为公共基础性仓库架构,包括了建模、方法论、架构和实施四个方面的实践过程。Data Vault有1.0和2.0两个版本,1.0版本主要关注数据建模部门,而2.0部分主要关注如何提供灵活、可扩展的模式。本文所涉及内容主要为2.0版本。(...原创 2020-03-02 22:12:04 · 1114 阅读 · 0 评论 -
数据仓库系列(19):数据安全
(一)数据安全体系全貌(二)一般意义上的数据安全流程数据安全流程包括以下几个步骤:1. 数据的产生:通过数据分级体系对敏感字段打标签;2. 数据的存储:需要通过加密的方式存储相关数据,避免直接存储Text格式的数据;3. 数据的使用:包括了一个独立的权限控制系统;4. 数据的传输:相关的申请与查询操作需要通过专门的API接口进行,并且有高安全等级的加密措施;5. 数...原创 2020-01-27 09:21:38 · 7369 阅读 · 0 评论 -
数据仓库系列(18):存储成本管理
(一)数据压缩数据压缩是在以Hadoop为主要构架的数据仓库中常见的数据处理方式,一方面适当的压缩数据,能够有效的提高MR计算任务时数据传输的效率,另一方面由于HDFS自身的三备份策略,导致数据存在比较大的冗余,通过压缩能够降低存储的成本。在进行数据压缩前,需要考虑如下几方面的事情:1. 所采用的的压缩算法是否支持文件的分片读取,是否支持MR的并行读取;2. 压缩算法的I/O性能,...原创 2020-01-26 16:42:45 · 1015 阅读 · 0 评论 -
数据仓库系列(17):数据可视化
(一)数据可视化的目的数据仓库除了有各种技术框架及理论模型外,还有一项比较重要的工作:数据可视化。试想我们在统计完成各类数据之后,如果没有系统的报表呈现,那么数据仓库的价值,便少了一种神圣的光环。那么数据可视化的作用是怎样的?通常来说,数据可视化在于通过相关的前端图形控件和丰富的色彩信息,将关键数据和特征直观地传达出来,从而能够在更多维的层面上来看待数据背后隐藏的商业信息。我们看到的数据可...原创 2020-01-20 09:37:31 · 3960 阅读 · 0 评论 -
数据仓库系列(16):领域模型的抽象方法
(一)抽象方法建立的初衷领域建模很早之前便存在了,它描述的是对事物的抽象,包括:属性(Attribute)、关联(Relationship)和操作(Operation)。我们在这里强调的方法论,并不是特定前提下的结果,不是告诉你领域模型的图该怎么画,而是怎么分析需求和用例,从而得出领域模型;不是告诉你流程图时序图该怎么画,而是怎么分析需求和用例,得出属于我们的业务流程。在各大建模书籍中,其实大...原创 2020-01-20 08:59:46 · 1393 阅读 · 0 评论 -
数据仓库系列(15):事实表设计
(一)该如何理解事实表事实表作为维度建模的另一个核心,是紧贴着业务过程来进行设计和描述的。相对于维度表来说,事实表要大的多,由于承载了具体的业务过程,因而变化也非常大。与维度表不同的是,事实表可以存储维度属性信息。事实表通常有三种分类:事务事实表、快照事实表与其他类型事实表,其中快照事实表又分为周期快照事实表与累积快照事实表。因为历史数据的关系,事实表通常比较需要比较多的例子来辅助说明,因...原创 2020-01-16 10:59:34 · 1490 阅读 · 0 评论 -
数据仓库系列(14):维度设计
(一)维度设计的基础知识在建设以Hadoop为技术核心的数据仓库时,维度建模是目前应用最广泛的建模方法论,虽然无法说它一定是最合适的,但针对维度建模所涉及的超大规模平台建设已经有了比较成功的应用案例。因此针对维度建模中最基本的维度与事实的概念,需要有一定比较深入的了解,以理解在超大规模平台下如何使用和维护。维度是维度建模最重要的建设项目,是描述平台表及业务过程的重要表述方式。通常一张维度表...原创 2020-01-15 17:47:57 · 1223 阅读 · 0 评论 -
数据仓库系列(13):数据仓库建模方法论
(一)建模的涵义建模,顾名思义,就是建立模型的意思,为了针对理解产品、业务、应用逻辑之间的相互关系而做的抽象,用于避免理解歧义。建模通常用文字配合模型的方式,将复杂的事物描述清楚,便于自己及他人的理解。如果把数据比作是图书馆里的书,那么建模就相当于合理规划图书馆的布局,能够让读者迅速而合理的找出目标书籍。(二)为什么需要建模方法论数据仓库的概念是建立在大数据的基础知识上,而大数据拥有良...原创 2020-01-14 11:53:55 · 3640 阅读 · 0 评论 -
数据仓库系列(12):数据质量
(一)题外话:架构推导思路说起数据质量,其实是一个很宽泛的问题,类似于写数据建模一样,是一个抽象概念为主的事情,对于程序员群体来说,总是难以解答和回答的。这里针对数据质量等类似的、在数据仓库平台中必须提及的概念,提供一种解答的思路,就是架构推导理论。先说一下基本的架构推导理论。根据ISO/IEC 42010:20072中的定义,架构 = 组件模块+关联关系+约束&指导原则。我们用一...原创 2020-01-13 16:21:05 · 1486 阅读 · 0 评论 -
数据仓库系列(11):元数据与元数据平台
(一)元数据的定义如果按照传统的定义,元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。例如我们看一部电影,电影本身就是数据,那么元数据就是用来描述这部电影的数据。如下图所示:在数据仓库体系中,元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息,记录了统计数据从产生到展示的全部过程。可以说,有了元...原创 2020-01-11 09:37:01 · 1127 阅读 · 0 评论 -
数据仓库系列(10):数据仓库分层模型
(一)写在前面的话数据仓库中,我们常听到要做分层计算,包括ads、dwd、dws、ads、dim,那为什么要这么区分,有什么意义?今天就来好好讲述一下。(二)传统意义上的数据分成在2012年前后,早期的大数据平台是以Hadoop为核心,数据开发也是以MapReduce为主,Hive等sql类开发极少应用。因此当数据从多个源头采集上来之后,格式化便成为了原始数据。原始数据经过MR的开发之...原创 2020-01-09 11:14:40 · 2369 阅读 · 0 评论 -
数据仓库系列(9):分布式理论
(一)最早的数据库三原则数据库每列具有原子性(所有字段都是不可分解的原子),行不可重复,列不可再分; 确保非主键列必须完全依赖主键列,不能部分依赖(通常对联合组件来说); 确保每列值都和主键列直接相关而不是部分相关(非主键列不能相互依赖)。(二)ACID原子性(Atomicity):指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。 一致性(Consistenc...转载 2020-01-07 15:14:52 · 317 阅读 · 0 评论 -
数据仓库系列(8):实时数据开发
(一)技术路线图(二)典型应用场景1. 电商平台大促期间成交金额;2. 广告主实时报表(分钟级更新);3. 实时反作弊;4. 业务场景异常监控。(三)流式技术架构目前流式计算框架相对成熟,以Storm、Spark Streaming为代表的开源组件也被广泛应用。流式数据处理,简单来讲,就是系统每产生一条数据,都会被立刻采集并发送到流式任务中心进行处理,不需要额外的定...原创 2020-01-07 15:04:16 · 563 阅读 · 0 评论 -
数据仓库系列(7):数据倾斜
数据倾斜主要分为MapReduce数据倾斜与Hive数据倾斜,接下来分别阐述。MapReduce数据倾斜:(一)Map端在Map端读数据时,由于读人数据的文件大小分布不均匀,因此会导致有些Map Instance 读取并且处理的数据特别多,而有些Map Instance 处理的数据特别少,造成Map端长尾。以下两种情况可能会导致Map端长尾:上游表文件的大小特别不均匀,并且小文件特...原创 2020-01-06 11:59:29 · 1570 阅读 · 0 评论 -
数据仓库系列(6):数据平台与离线数据开发
(一)技术架构(二)数据开发的日常工作及特点数据开发岗位的日常工作流程为:1. 开会,了解产品需求,进行开发排期;2. 模型设计,了解依赖关系与约束原则,与产品二次核对;3. ETL开发,沟通其他部门,导入数据;4. SQL/MR开发,编写业务逻辑;5. 测试,测试人员检查逻辑,并核对结果准确性;6. 发布上线,加入日常监控报警。数据开发岗位的几大特点...原创 2020-01-06 11:51:05 · 801 阅读 · 0 评论 -
数据仓库系列(5):数据同步
一、技术路线图二、数据库直连同步由于对于数据仓库系统而言,业务系统的数据多种多样,但由于技术惯性等原因,现有业务数据大多存储在Mysql或者Postgresql中,并且以结构化的方式进行存储。通过定义好的规范接口,以API的形式同步,是常见的数据库直连同步,调用数据库标准方法即可实现。这种方式配置简单,实现非常容易,但是对于业务系统的影响较大。通常情况下,业务系统会采用主备的策略来实现...原创 2020-01-02 11:48:20 · 1223 阅读 · 0 评论 -
数据仓库系列(4):数据采集
前言:本系列的技术文章不涉及实现细节,仅探讨实现思路。由于数据仓库不仅仅是一个理论概念,其数据质量等原则包含了大量的技术实现细节,因此从数据采集开始,到数据处理,至最终的数据展现,都需要进行原理上和实现上的思路分析,才能保证最终数据仓库理论的完整实现。另外,需要强调的是,本系列文章非原创,是笔者多年从业经历的一种思路整理,对于日常理解数据仓库的实现有着很大的帮助,因而用到了非常多其他文章的引用,并...原创 2020-01-01 10:49:32 · 2540 阅读 · 0 评论 -
数据仓库系列(3):数据的价值如何体现
数据价值疑惑的来源:不论是求职面试,还是在晋升答辩,亦或是好友交谈,都不免谈到一个问题:数据的价值如何体现?相对于传统数据库的版权购买和服务器投入,大数据平台动辄上百台机器,每天流动几个T的数据,如果只局限在统计报表给领导或者客户看的层面上,收益其实是非常低的,也很容易不被大领导重视,或者是被边缘化。 那么数据没有价值吗?肯定不是。我们经常说,要用数据驱动,那么这个驱动是怎么...原创 2019-12-31 15:00:03 · 1602 阅读 · 0 评论 -
数据仓库系列(2):数据仓库的实践流程
传统数据需求的路径:第一阶段:临时需求;在数据平台搭建的早期,几乎所有的需求都来自于临时需求,数据化运营的概念从2012年才开始逐渐被行业接受并提升到公司战略的层面。因此当需求被提交给数据团队时,数据工程师需要手工编写代码,将数据跑好,再交给用户,基本靠人力来完成各类支持。但这个阶段是很有必要的,为后续数据产品的思考和规划积累了丰富的原始需求素材。 第二阶段:自动化报表;随着业务的不断发展壮...原创 2019-12-31 14:58:36 · 757 阅读 · 0 评论 -
数据仓库系列(1):为什么要搭建数据仓库
系列说明:本文写作的初衷,是想以阿里巴巴的OneData体系为出发点,详细阐述数据仓库搭建的初衷、架构的理念及实现的方式,借此来总结从事大数据开发岗位多年以来的经验积累。仅从笔者个人角度出发,收集相关素材,进行二次整理,并非原创。什么是数据仓库?要想全面的来看待数据仓库,首先要回答的是数据仓库搭建的目的:百度百科解释:数据仓库是为企业所有级别的决策制定过程,...原创 2019-12-31 14:55:21 · 4480 阅读 · 0 评论