数据分析组的同事们将数据分析的好细,一个个子表之间的关系更加直接,有空的时候要请教一下他们怎么进行数据清洗和分析的。接下来就是我们的工作了,这几天把schema文件怎么建摸熟了,在程序里验证了一下,发现这个框架确实强大,如此智能!
先要按照数据的结构来新建schema文件,利用schema workbench来新建
这里有关schema文件的几个属性先分析一下:
立方体 cubes: 由维度构建出来的多维空间,包括要分析的基础数据,所有的聚合数据操作都在cubes上进行;
维度 dimensions:观察数据的一种角度,可以理解成立方体的一个轴。特殊的维度--度量值维度。
维度成员:Members,构成维度的基本单位。对于时间维,它的成员可以分别是:第一季度、第二季度、第三季度、第四季度。
dimension Usage:在cubes里新建dimension Usage 是选择公用的dimensions,可以将公用的dimensions建在cubes外面;
层次:Hierarchies,维度的层次结构,要注意的是存在两种层次:自然层次和用户自定义层次。对于时间维而言,(年、月、日)是它的一个层次,(年、季度、月)是它的另一个层次,一个维可以有多个层次,层次可以理解为单位数据聚合的一种路径。
级别:Levels,级别组成层次。对于时间维的一个层次(年、月、日)而言,年是一个级别,月是一个级别,日是一个级别,显然这些级别是有父子关系的。
度量值:要分析展示的数据,即指标。如图1中一个cell中包含了两个度量值:装箱数和截至时间,可以对其进行多维分析。
事实表:存放度量值的表,同时存放了维表的外键。所有的分析用的数据最终都是来自与事实表。
维表:一个维度对应一个或者多个维表。一个维度对应一个维表时数据的组织方式就是采用的星型模式,对应多个维表时就是采用雪花模式。雪花模式是对星型模式的规范化。简言之,维表是对维度的描述。