数据中台概念(一) 1.数据仓库 启蒙时代 BI诞生于上世纪90年代,数据转化为知识,帮助企业经营分析决策。 零售行业的门店管理,如果使单个门店利润最大化 分析每个商品的销售数据和库存信息 为每个商品制定合理的销售采购计划,滞销降价,畅销预测,提前采购 大数据量的范围查询 数仓之父=》比尔 恩门=》数仓是在企业管理决策中面向主题、集成、与时间相关,不可修改的数据集合 订单表和会员表
数仓建模篇(三) 维度建模技术概述1.基本概念 收集业务需求与数据实现 理解业务需求+作为基础的源数据的实际情况 与业务代表交流发现需求 理解关键性能指标、竞争性商业问题、决策制定过程、支持分析需求的目标 源数据专家沟通,构建高层次数据分析访问数据可行性 协作维度建模研讨 维度模型应该由主题专家与企业数据管理代表合作设计而成 工作由数据建模者负责 模型应该通过与业务代表开展一系列高级别交互讨论获得
数仓建模篇(二) 1.星型模型与OLAP多维数据库 在关系型库管理系统中实现的维度模型称为星型模型,因为其结构类似星型结构 在多维数据库环境中实现的维度模型通常称为联机分析处理 2.用于度量的事实表 维度模型中的事实表存储组织机构业务过程事件的性能度量结果 尽量将来与同一个业务过程的底层度量结果存储于一个维度模型中 允许多个组织的业务用户访问同一个单一的集中式数据仓库 事实表的每一行对应一个度量事件 注:物理世界的每一个度量事件与.
Hive优化及解析 1.explain 一般用于查看表的具体stage流程,根据流程判断自我推测2.explain dependency 快速排查分区 具体场景 快速排出因为读取不到相应分区的数据而导致任务数据输出异常 理清表的输入,帮助理解程序的运行,特别是有助于了理解子查询,多表连接的依赖输入(on,where) 不同写法,最后的实现也不会一样3.explain authorization 了解数据源、数据输出以及访问用户和操作4...
数据建模规范 一、建模设计参考规范1、建模原则 高内聚和低耦合 核心模型与扩展模型分离 公共处理逻辑下沉及单一 成本与性能平衡 数据可回滚 一致性 命名清晰、可理解表命名需清晰、一致,表名需易于使用方理解 2、建模评价指标 完善度 汇总数据能直接满足多少查询需求 跨层引用比列(业务方直接从dwd、dws、ads层直接拿到想要的数据) 快速相应业务方的需求 复用度 模型被读取并
数仓概览导向 启蒙时代 BI诞生于上世纪90年代,数据转化为知识,帮助企业经营分析决策。 零售行业的门店管理,如果使单个门店利润最大化 分析每个商品的销售数据和库存信息 为每个商品制定合理的销售采购计划,滞销降价,畅销预测,提前采购 大数据量的范围查询 数仓之父=》比尔 恩门=》数仓是在企业管理决策中面向主题、集成、与时间相关,不可修改的数据集合 订单表和会员表 ..
快速入门数据仓库 总结: 概念 是一个用于存储、分析、报告的数据系统 构建面向分析的集成化环境,分析结果为企业提供决策 数仓本身不生产数据,数据来源于外部系统 数仓本身也不消费数据,其结果开放给各个外部应用使用 所以称为仓库而不是工程 为什么会有数仓? 为了分析数据而来,分析结果给企业决策提供支撑 操作性记录的保存 公司下面有多个BU,业务线等等,都有各自的业务系统,记录销售、经营、
深入浅出Spark(一) 1.map与mapPartitons区别(transformation操作) map 针对RDD中的每个元素进行转换,粒度更细 mapPartitions 针对分区整体数据进行转换,粒度更粗 2.foreach与foreachPartitions区别(action操作) foreach 针对RDD中每个元素就行输出,粒度更细 foreachPartitions 针对分区整体进行输出,粒度更粗 3.repa
阿里大数据之路问道(一) 数据同步数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景。主数据库与备份数据库之间的备份,主系统与子系统之间的数据更新,同类型不同集群数据库之间的数据同步。还有不同地域、不同数据库类型之间的数据传输交换,比如分布式业务系统域数据仓库系统之间的数据同步。数据同步的基础数据类型多种多样,结构化数据、半结构化数据、非结构化数据。同步方式可以分为三种:直连同步、数据文件同步和数据库日志解析同步 直连同步 ODBC\JDBC 数据文件同步
数仓建模篇(一) 数据仓库数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义一直被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。数据架构的原则1、底层业务
Flink的前身今世 1.2008年也就是北京奥运会的同一年,诞生于柏林理工大学,原名StratoSphere,平流层?老外认为是顶层的一套计算框架吧2.2014年4月16号Flink称为Apache顶级项目,那就更个名吧,更名为flink。此时版本0.63.2014年11月04号Flink0.7.0发布,介绍了一个重要的特性,Streaming API,注入流式的力量4.2016年03月08号发布Flink1.0.0,支持S...
Docker01下载安装及删除 #1. 卸载旧的docker版本sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-l...
深入ehcache(一) 我们先思考一下,什么是ehcache?ehcache能有否给我们带来方便,我们经常在哪里会用到它?当我们携带着这些问题之后,接下来,在好奇心的驱使下,我们可以完美进入学习ehcache的步调当中。 ehcache的优点: 1、简单、快速 ...