此篇是关于本书的读书笔记总结,因为在这方面的理解还是比较初级的状态,有误之处还望指教。
个人认为这本书对于数据仓库的建模思路有一个很明确的描述:围绕事实表建立维度表。对数据仓库的建设有关键步骤上的指点:
四步流程:
1. 确定业务流程
2. 确定粒度
3. 确定维度
4. 确定事实表
另外一方面,由于这本书的出版时间大约在2005年前,因此对于Hadoop之类的分布式概念没有涉及,姑且可以认为是传统数据仓库建模的建模流程(这里的表述未必准确,因为本书主要是概念性的指导而非物理实现的说明,因此对于数据建模还是有很大的参考价值的)。而且不知道是不是翻译的差异,感觉行文比较啰嗦,经常看了半天也抓不住重点。
这里列举一些感触较深的概念:
1. 因果维度:如果某个维度的变化会导致事实表变化,则称其为因果维度。事实上,每个维度(比如时间维度)的变化都会造成事实表(比如销售量)的变化,因果维度的特殊性在于这种变化是主动的,用来描述决策者行为对事实表的变化,而时间等维度更多的是自然性的变化。
因果维度的对立面是偶然维度,这个概念我也没有足够了解,可能指的是相关而非因果的信息。
促销维度是一种典型的因果维度,其中包括降价,活动等等,见第二章
2.