项目总结
Cormier-an
且行且思
展开
-
设计点击流数据仓库时遇到的挑战
目前在做一个有关网站点击流信息方面的数据仓库(集市)项目,一开始发现存在着很多难以完美解决的挑战1.丢失的来源 点击流信息库当中会比较在意会话的来源,来源网页,来源搜索相关的关键字、搜索引擎等相关信息 但是不管如何,总是会存在着会话来源丢失的问题,这可能跟访问者所使用的浏览器设置,以及其他一些因素有关 。这部分丢失的数据会占到整个数据的10-20%左右,如何找回这部分丢失的原创 2013-09-07 15:24:02 · 1224 阅读 · 0 评论 -
数据仓库开始----范围的确定
数据仓库项目准备完毕后,接着就要考虑设置初始项目的范围。项目的范围需要 IT 机构与业务管理人员一起就进行确定。数据仓库项目范围应该在带给机构的价值与可管理性这两个方面都显得富有意义,避免过于考虑价值而忽略了可操作性。首轮设计开始阶段,应该将注意力集中在来自单个业务处理的数据上,这样可以尽快让用户看到初始原型,以便有进一步的功能需求。 对于那些更有挑战性的交叉处理项目,应该等到以后原创 2013-09-09 09:11:09 · 1002 阅读 · 0 评论 -
日期维度上不能向上汇总的度量
Qing 20060927和阿龙探讨一个问题,其实已经不止一次地说起了。只是不知道该如何为他命名,差不多就是跟以前遇到的"通话用户数"问题类似,他这里是订购用户数。这个值,在不同时间粒度上,是需要去重计算的。例如下面一组数,想象这是一个用户订购表,每条记录表示用户发生了订购或退订,date表示日期,usr表示用户,act表示订购(s)/退订(u)。 date usr act转载 2013-09-12 09:09:14 · 1397 阅读 · 0 评论 -
ETL----源业务系统数据库跟踪报告
一旦源系统被确定,就要说明这些系统的意义以及谁对他们负责。下图就是为这个目的建立的图表。这个图表,也就是源系统跟踪报告,使得我们不用总是麻烦系统管理员或者业务管理者。如果走运的话,数据建模工程师将开始制作这个列表。不管谁定的初稿,这个列表的维护应该是ETL小组和数据建模小组共同努力来完成。如果在分析过程中认为一个源系统不适合作为数据仓库的源,保留它在这个列表中,并说明不使用它的原因;可能在后续阶段原创 2013-10-07 15:26:13 · 1456 阅读 · 0 评论 -
ETL----从源数据到数据仓库的逻辑数据映射
逻辑数据映射的组成 逻辑数据映射(见下图 )通常用一个表或者电子表格格式来表示,它包括以下特定的组成部分: 目标表名称:数据仓库中出现的物理表名称;目标列名称:数据仓库表中的列名称; 表类型:表示这个表是事实表,维表或者子维表(支节) SCD(缓慢变化维)类型:对维表,这个部分表示是类型1,类型2或者类型3的缓慢变化维。这个指标对维表中的不同的列可以是不同的。原创 2013-10-07 15:00:28 · 6509 阅读 · 0 评论 -
BI通用流程的设计
BI流程:原创 2013-09-04 10:12:22 · 1862 阅读 · 0 评论 -
ETL----如何抽取变化的数据
在初始化加载时,捕获源数据中的数据内容的变化不是很重要,因为很可能会导出整个数据源或其中的一部分。然而一旦初始加载完成,捕获源系统中的数据变化立即变成非常重要的任务。如果等到初始加载完成才开始规划数据变化的捕获技术,则将遇到很大的麻烦,捕获数据变化绝不是一个简单的任务,必须制定相应的策略来在项目中捕获源数据中不断增长的变化。 ETL 小组在后续的加载过程中负责捕获数据内容的变化原创 2013-10-08 10:51:56 · 3336 阅读 · 1 评论