数据仓库
just-do-it-zzj
有人经常说:选择比努力更重要,可是如果你不努力,哪里有选择的机会。
展开
-
[数据仓库]数据仓库中的分层架构
为把Bill Inmon和Kimball 两种不同的思路统一起来,Bill Inmon提出了CIF(Corporation Information Factory)架构,核心是把数据仓库分为不同的层次以满足不同场景的需求;每层根据不同的场景采用不同的方案。传统数据仓库1.0的分层:数据源->数据集成平台->数据交换平台->数据集市(数据应用、数据汇总、数据明细)传统数据仓库2.0的分层:ODS->DWD->DWS->DMODS(Operati...原创 2021-02-03 09:07:38 · 506 阅读 · 0 评论 -
[数据仓库]数据仓库建模的目标
建模的目标访问性能:能够快速查询所需要的数据,减少I/O数据成本:减少不必要的数据冗余、实现计算结果的复用;降低大数据系统中的存储成本和计算成本使用效率:改善用户使用数据的体验,提高使用数据的效率数据质量:改善数据统计口径统计的不一致性,减少数据计算错误的可能性,提供高质量的数据,一致的数据访问平台。数据仓库通过数据建模的方法组织、管理数据,以便在性能、成本、效率和数据质量直接找到平衡点。...原创 2021-02-03 09:04:20 · 345 阅读 · 0 评论 -
[数据仓库]Bill Inmon和Ralph Kimball方法论
数据仓库最早可以追溯到20世纪70年代,希望将业务处理系统和分析处理系统分成不同的层次。20世纪80年代出现TA2规范,明确把分析系统分为4个层次:数据获取、数据访问、目录、用户服务。1988年IBM第一次提出了信息仓库的概念:一个结构化的环境,支持用户管理其全部业务数据,并支持信息部门保证数据质量;抽象出基本组件:数据采集、转换、有效验证、加载、Cube开发等,基本明确了数据仓库的基本原理、框架结构以及分析系统的基本原则。1991年Bill Inmon编写了《Building the Dat...原创 2021-01-27 11:34:37 · 1699 阅读 · 0 评论 -
[数据仓库]我理解的数据中台
目录概述特点数据应用成熟度核心:让数据产生价值与传统数仓的区别技术架构建设思路自上而下自下而上概述数据中台不仅仅是一个技术栈,还是一种经营理念;需要利用数据中台理论提高企业的组织效率、协同效率、运营效率不仅仅是业务和技术聚在一起,业务提需求,技术画架构,然后开发实现,这样一定做不好数据中台,它首先一定要在组织架构上表现出来,有组织保障。同时技术需要工具承载;因此数据中台是方法论+组织+工具的集合;最后的表现形式为:数据+服务+解决方案+组织。特点.原创 2021-01-25 16:17:11 · 169 阅读 · 0 评论 -
[数据仓库]大数据体系下的工作者分类
经常听到周边的同事说,我是做大数据的;但是具体问到技术问题时却说工作中没有涉及到改方面。于是在别人眼中就无意中留下这种印象:“你技术很菜”、“你说了假话,你根本不是做大数据的”;其实广义的大数据行业包括很多细分的工作岗位,下面是我的理解的三种分类:大数据基础平台的维护、基础运维、优化 不过度关注业务、数据内容本身,重点是集群的稳定性、性能、易用性,技术上涉及底层源码,比如Hadoop、Spark,Hbase等,大数据底层框架的维护者。大数据生态开发、工程性开发、应用开发...原创 2021-01-22 11:09:43 · 176 阅读 · 0 评论 -
[数据仓库]数据仓库和数据库的区别
数据仓库和数据库数据仓库是面向主题的、集成的、稳定的,反映历史变化数据集合,用于分析场景,支持管理决策过程等。面向主题:在较高层次对企业的数据进行综合归并而进行的抽象概念。数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉 集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作;并保持数据的一致性、完整性、准确性、有效性 反映历史变化:关键数据隐式或显式的基于时间变化 相对稳定:数据仓库的数据一般只做添加不做更新:数据装入以后一般只进行查询操作原创 2021-01-22 11:02:49 · 138 阅读 · 0 评论 -
[数据仓库]基于大数据的数仓和传统数仓的区别
基于大数据的数仓 随着新的应用场景(个性化推荐、用户画像、机器学习、数据分析)的出现,数据爆炸式增长,基于大数据的数仓应用而生,其特点是变化快,速度快、能处理海量数据,有实时需求;ER建模被弱化、DWS、DM采用维度建模;建模被弱化,更偏于混合建模,数据质量一般,重点在于响应需求速度快、灵活。更强调数据资产的重要性,一般到达一定规模,倾向与做数据治理(数据质量、数据安全、数据标准、数据血缘、主数据、元数据管理) 技术栈:HDFS、Hive、Hbase、Flume、Kafka、Flink、...原创 2021-01-15 09:16:19 · 2782 阅读 · 0 评论