数据仓库
SunWuKong_Hadoop
人和人之间的能力是在8小时之外拉开的。
Notoriously torture the data until it confessed
展开
-
跟我一起学【Powerdesigner】之——导入EXCEL生成逻辑模型
表结构如图:中文表名 英文表名 字段编码 字段名称 字段注释 字段类型 是否主键 是否可空 主键是否自增 user1 用户信息表1 id id id int(10) Y Y Y user1 用户信息表1 name 用户名 用户名 varchar(100) N Y user1 用户信息表1 password 密码 密码 .原创 2021-01-15 17:47:16 · 1315 阅读 · 2 评论 -
跟我一起学【数据仓库】之——需要避免的维度建模错误
1.在事实表中放入文本属性2.限制使用冗长的描述符以节省空间3.将层次(级联的多对一关系序列)划分为多个维度4.忽略跟踪维度的变化合理运用缓慢变化维度的类型,或者微型维度5.使用更多的硬件解决遇到的性能问题硬件昂贵,要考虑使用语句或调参层面的技术,主动调优。6.使用操作型键连接维度和事实不要使用包含日期的的操作型键声明为维度键。应考虑使用代理键(简单的整数型1到N顺序排列),日期维度是这一规则的唯一例外。7.忽视对事实粒度的声明,并混淆事实粒度8.使用报表设计维度模原创 2020-07-15 17:13:49 · 511 阅读 · 0 评论 -
跟我一起总结【数据仓库】之——数据治理、数据管理、数据资源与数据资产管理对比
前言随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理、数据管理、数据资源管理、数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据相关的概念有全面的认识。一数据与数据管理 (Data and Data Management)1.1数据 数据(Data)是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量...转载 2020-06-08 10:59:19 · 2501 阅读 · 0 评论 -
跟我一起总结【数据仓库】之——数据模型记分卡
数据模型记分卡正确性:找到模型的评审记录及建议,与模型比较 找到已创建的用户故事,与模型比较 找到已经分析的数据库或接口设计,与模型比较 检查已确保选择了正确的业务范围 检查以确保模型遵循了现有标准完整性:确认获得了所有的业务元数据 确认获得了所有的技术元数据 确认获得了所有的需求 确认没有提供免费的服务 确认看清了所有模糊的需求结构一致性...原创 2019-12-23 16:09:54 · 866 阅读 · 0 评论 -
跟我一起总结【数据仓库】之——实施经验
在这次分享会开始之前,对所有战斗在项目第一线及奔赴现场的同学们,真切的道一声辛苦了!本次的分享涵盖了交付物、数据仓库设计、需求变更及处理方法、问题记录1.交付物:《库表检查记录》《API接口文档》《数据架构图》《数仓资源访问方式》数据库类型、数据库位置,面向的是不会使用数据库的客户。《数据仓库设计文档》贴源层-标准层-基础数据层-集市层-应用层,(Excel结构参照模板)《数据...原创 2019-12-23 15:57:08 · 738 阅读 · 0 评论 -
跟我一起总结【数据仓库】之——设计文档检查项
1.枚举值:检查“归集库”字段中文注释,是否包含分号、冒号、顿号、斜杠/反斜杠,数字0,1,2(方便标准层及基础层使用)检查方法:对“字段名称”查找,截取后放到“枚举值”或“注释”2.明细表表名命名里包含动词检查方法:核对后,逐个修改3.原子信息表“中文表名”需要清楚展现释义检查方法:形如:【b_st_yz_jjh_基本信息】 需要修改为 【基金会基本信息】4.字段及注释完整,不含有歧义,不...原创 2019-12-23 15:34:39 · 442 阅读 · 0 评论 -
跟我一起学【数据仓库】之——数据管理知识体系
1.数据建设思维云2数据管理十大职能-其四3-1数据开发-建模方法引导3-2.实体、非独立实体、业务规则3-3.数据开发-物理数据库交付物3-4.数据开发-数据项目实施4-1.数据仓库-为什么要维度建模?4-2. 数据仓库-建库方法5.元数据管理-一图解析元数据、主数据与参考数据6.元数据管理-元数据类型...原创 2019-10-24 09:34:20 · 506 阅读 · 0 评论 -
数据仓库系列-为什么要维度建模
凡是建设数据仓库,一定会提到维度建模方法。这一方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、商品、地址等,事实是要度量的指标,如用户数、销售额等。按照一般书籍的介绍,维度建模还会分为星型模型、雪花模型等,各有优缺点,但很少直接回答一个问题,也就是数据仓库为什么要采用维度建模?这个问题的基本判断...转载 2019-06-04 17:14:58 · 592 阅读 · 0 评论 -
跟我一起学【数据仓库】之——hive数据仓库设计中的拉链表、增量表、全量表
1)存量、流量、增量(1)存量:系统在某一时点时的所保有的数量;(2)流量:是指在某一段时间内流入/出系统的数量(3)增量:则是指在某一段时间内系统中保有数量的变化(4)增量=流入量--流出量(5)本期期末存量=上期期末存量+本期内增量2)拉链表:注意事项(1)记录一个事物从开始,一直到当前状态的所有变化的信息;(2)拉链表每次上报的都是历史记录的最...转载 2019-06-04 18:29:07 · 466 阅读 · 0 评论 -
跟我一起学【数据仓库】之——为什么要维度建模
凡是建设数据仓库,一定会提到维度建模方法。这一方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、商品、地址等,事实是要度量的指标,如用户数、销售额等。按照一般书籍的介绍,维度建模还会分为星型模型、雪花模型等,各有优缺点,但很少直接回答一个问题,也就是数据仓库为什么要采用维度建模?这个问题的基本判断...转载 2019-06-14 11:31:25 · 1344 阅读 · 0 评论 -
跟我一起学【数据仓库】之——保存历史数据方法——拉链表
一、数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。l 面向主题:传统的数据库是面向事务处理的,而数据仓库是面向某一领域而组织的数据集合,主题是指用户关心的某一联系紧密的集合。l 集成:数据仓库中数据来源于各个离散的业务系统数据库、外部数据、非结构化数据的集合,数据仓库数据是集成的。l 相对稳定:数据仓库中的数据不应该支持dml操作,...转载 2019-06-13 10:51:25 · 1315 阅读 · 0 评论 -
跟我一起学【数据仓库】之——星型模型 VS 雪花型模型
一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一...转载 2019-06-13 09:55:12 · 1097 阅读 · 0 评论 -
跟我一起学【数据仓库】之——Inmon VS Kimball数仓理论
Inmon和Kimball是数据仓库领域伟大的开拓者,他们均多年从事数据仓库的研究,Inmon还被称为“数据仓库之父”。Inmon的《数据仓库》和Kimball的《数据仓库工具箱》都是此领域的经典之作。后来人把这两人的数据仓库思想总结为“Inmon理论”和“Kimball理论”。他们的思想有共同点,也有不同点。下面按照我的想法总结一下,理解如有偏颇,还请多多指正。1. 共同点(1)均极力推...转载 2019-06-13 09:49:22 · 463 阅读 · 0 评论 -
跟我一起学【数据仓库】之——数据仓库建设步骤
1.系统分析,确定主题确定一下几个因素:·操作出现的频率,即业务部门每隔多长时间做一次查询分析。·在系统中需要保存多久的数据,是一年、两年还是五年、十年。·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。·用户所能接受的响应时间是多长、是几秒钟,还是几小时。2.选择满足数据仓库系统要求的软件平台选择合适的软件平台,包括数据库、建模...转载 2019-06-05 10:07:25 · 761 阅读 · 0 评论 -
数据平台维度模型设计十个技巧
了解过数据仓库历史的人都知道Bill Inmon、 Ralph Kimball。 Bill Inmon 代表作《Building the Data WareHouse》 , Ralph Kimball代表作为 《The Data Warehouse Toolkit》、《The data Warehouse lifecycle》。两位大师对数据模型都分别作了深入阐述,个人理解的数据模型是数据平台的灵...转载 2019-03-11 10:49:13 · 398 阅读 · 0 评论 -
维度表,实体表,事实表之间的关系
看了这个让我们顿悟:维度表:维度表可以看成是用户用来分析一个事实的窗口,它里面的数据应该是对事实的各个方面描述,比如时间维度表,它里面的数据就是一些日,周,月,季,年,日期等数据,维度表只能是事实表的一个分析角度。实体表:实体表就是一个实际对象的表,实体表它放的数据一定是一条条客观存在的事物数据,比如说设备 ,它就是客观存在的,所以可以将其设计一个实体表。...转载 2019-03-14 21:12:36 · 1773 阅读 · 1 评论 -
EA数据库反向工程
1.安装MySQL数据源驱动程序 mysql-connector-odbc-5.1.13-winx32 MySQL-connector-odbc-5.1.13-winx64 2. 配置ODBC用户DSN 控制面板---管理工具----ODBC数据源(32位)-----添加 选择mysql ODBC 5.1 Driver,点击完成。Tip:...转载 2017-06-21 17:49:23 · 591 阅读 · 0 评论 -
大数据环境下该如何优雅地设计数据分层
0x00 前言最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:……发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在...转载 2018-02-26 16:50:42 · 455 阅读 · 0 评论