数据仓库
数据饕餮
高级数据产品专家,人工智能等前沿技术领域探索者,15年+一线IT行业经验,主要从事金融、互联网广告和电商行业数据产品建设。
展开
-
数据仓库专题(4)-分布式数据仓库事实表设计思考---讨论精华
上一篇分享博文《数据仓库专题(3)--分布式数据仓库事实表设计思考》后,陆续有各位兄弟参加大讨论,提出了各种问题,关于分布式环境下,维表和事实表设计,进行了比较深入的探讨,在此汇集整理,分享给大家。希望能有更多人参与尽力啊,共同探索分布式数据仓库数据模型的设计。原创 2015-04-19 21:04:47 · 1969 阅读 · 0 评论 -
《分布式数据仓库最佳实践》学员答疑实录(1):ETL异常情况下载,数据重载策略和机制
守护撤回了一条消息【潜水】 A 2019/1/15 8:50:46之前的做法是先卸数到数据文件,如果调度出问题,第二天还可以从数据文件再重新把数据加载上去,还有什么其他的方法吗【话唠】B 2019/1/15 8:53:04增量数据,还是全量【话唠】B 2019/1/15 8:54:27源库数据归档备份几天呢,这方法可行?【潜水】A 2019/1/15 9:08:21有的增量有的全量...原创 2019-01-15 11:37:47 · 724 阅读 · 0 评论 -
数据仓库专题20-案例篇:电商领域数据主题域模型设计v0.1(改进意见征集中)
一、电商分类(平台+自营+复合) (1)平台型电商:淘宝+天猫+百度Mall等; (2)自营型电商: 2.1 综合型:京东(早期)+当当(早期); 2.2 垂直型:好像这种类型越来越少了; (3)复合型电商(平台+自营):京东+当当+亚马逊等; 二、平台型电商特点(三无+两有+一核心) (1)三无:无商品、无库存、无物流; (原创 2016-03-14 16:36:43 · 5739 阅读 · 0 评论 -
胖子哥的大数据之路(13):破题,或从数据整合开始
一、前言 这是关于互联网上一篇文章的读后感,原文标题《大数据成变量,BAT入口生态或生变局》。读这篇文章既有醍醐灌顶之顿悟,亦有如履薄冰之恐惧,阿里好强,动作好快。其实,最近一直在思考当代企业信息化架构EA框架的调整,基本的一个思路是数据上提,与业务架构平齐,不再只是作为业务系统的功能支撑,而是自成一片天地,独立运营。至于数据化运营与现有业务的关系,则可一分为二:其一、可进,进可开疆辟土,基...原创 2018-03-13 09:51:08 · 548 阅读 · 0 评论 -
数据仓库专题(7)-维度建模11大基本原则
一、前言 数据仓库存储逻辑模型设计,需要遵循一定的设计原则。遵循这些原则进行维度建模可以保证数据粒度合理,模型灵活,能够适应未来的信息资源,违反这些原则你将会把用户弄糊涂,并且会遇到数据仓库障碍。本文适用于多维建模,不使用于3NF建模。二、正文 原则1、载入详细的原子数据到维度结构中 维度建模应该使用最基础的原子数据进行填充,以支持不可预知的来自用户查询的过滤原创 2015-05-06 18:55:13 · 3442 阅读 · 0 评论 -
数据仓库专题(8)-维度属性选择之维护历史是否应该保留
正本溯源,要想搞清楚这个问题,还是要回到维度的定义上来。维度是用来对数据进行分类的结构和人们观察业务情况的角度.关于维度的定义至今未看到统一的行业标准。在此选取Kimball的说法:“维度提供围绕某一业务过程所涉及的‘谁、什么、何处、何时、为什么、如何’等背景。维度表包含BI应用所需要的用于过滤及分类事实的描述性属性。原创 2015-05-13 16:32:09 · 1686 阅读 · 0 评论 -
数据仓库专题(5)-如何构建主题域模型原则之站在巨人的肩上(二)NCR FS-LDM主题域模型划分
分布式数据仓库模型的架构设计,受分布式技术的影响,很多有自己特色的地方,但是在概念模型和逻辑模型设计方面,还是有很多可以从传统数据仓库模型进行借鉴的地方。NCR FS-LDM数据模型是金融行业事实上的工业标准。也是各行业数据仓库模型的基础和蓝本。本文以NCR FS-LDM10.0版本为基础,介绍NCR FS-LDM主题域模型的划分和定义。原创 2015-04-21 11:01:28 · 7662 阅读 · 0 评论 -
数据仓库专题(1)-数据仓库生命周期模型
一、前言 工作内容的变更,导致重新回到数据仓库模型的架构和设计,于是花点时间比较系统的回顾数据仓库建模和系统建设的知识体系,记录下来,作为笔记吧。二、模型 无论数据仓库技术如何变化,从RDBMS到NoSQL,从传统技术到大数据,其实只是实现技术手段的变化,数据仓库建设生命周期的模式从来都不曾真正颠覆性改变过。向前辈致敬。下图是The Kimball Lifecycle diagra原创 2015-04-19 21:12:00 · 3382 阅读 · 1 评论 -
数据仓库专题(5)-如何构建主题域模型原则之站在巨人的肩上(一)IBM-FSDM主题域模型划分
如何构建主题域模型原则是构建企业级数据仓库重要的议题,最好的路径就是参照成熟的体系。IBM金融数据模型数据存储模型FSDM,是金融行业应用极为广泛的数据模型,可以作为我们构建企业级数据仓库主题域模型划分的重要依据。本文就IBM FSDM主题域模型进行初步的介绍。原创 2015-04-19 21:02:19 · 5370 阅读 · 1 评论 -
数据仓库专题(2)-Kimball维度建模四步骤
四步过程维度建模由Kimball提出,可以做为业务梳理、数据梳理后进行多维数据模型设计的指导流程,但是不能作为数据仓库系统建设的指导流程。本文就相关流程及核心问题进行解读。原创 2015-04-19 21:11:10 · 6922 阅读 · 1 评论 -
数据仓库专题(3)-分布式数据仓库事实表设计思考
最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造。设计出一套真正适合分布式数据仓库的数据存储模型。原创 2015-04-19 21:11:22 · 2327 阅读 · 0 评论 -
《分布式数据仓库最佳实践》学员答疑实录(2)
一、前言本文是《***分布式数据仓库最佳实践***》视频课程的学员答疑实录,学员答疑过程中,针对共性问题和具有代表性的问题,分享在此,算是立此存照。课程大纲见:《分布式数据仓库最佳实践-目录篇》,课程地址:网易云课堂。二、正文2.1 问题类型:事实表设计:累积事实表,是否需要拆分成不同的事实表。2.2 问题描述**关键词:**业务系统中的累积事实表,数仓中是否需要拆分成不同的事实表;...原创 2019-02-20 15:39:43 · 559 阅读 · 0 评论