第二章、表格结构数据与表结构数据(2)
四、表结构数据的概述与特征
1、表结构的概述
(1)字段与记录
表结构数据中,数据引用、操作、计算的基本单位不是单元格,而是整列字段或者整行记录。
一个数据由多列不同字段以及多行不同记录构成。
表结构数据中的行称为记录,字段是指表结构数据中列的记录。
字段用来区分记录中不同的业务角度信息以及业务行为结果信息。
(2)维度与度量,维度表与事实表
维度:用来描述交易行为不同角度的信息
度量:用来描述交易结果的信息。
维度表:在表结构数据中,有些表只包含维度信息而不是包含度量信息。【在业务描述性分析过程中,维度表主要用来扩展观测业务问题的角度以及细节。】
事实表:既包含维度信息又包含度量信息。【事实表用来记录业务的实际情况,在业务描述性分析中,用事实表中的度量字段对业务行为产生结果的好坏程度进行描述。】
业务描述性分析方法的本质就是在不同业务角度(维度)下对业务行为的结果(度量)进行分析、展现、论证以及总结的过程。
表结构数据中的维度字段一般是文本型字段,而度量字段一般是数值型字段。
2、表结构的特征
(1)字段或记录行是表结构数据中的基本引用、操作、计算单位。
(2)表中所有字段的记录行数相同。
注意:表结构数据中存在没有明确数值的记录,那么该处的记录中使用的是控制。控制在计算机中用null表示。在数据分析工作中,一般又将空值称为缺失值。
缺失值处理:当出现空值记录时,往往需要使用删除记录行,替换空值为其他有效值等方法来减少或完全回避控制对分析结构的影响。
(3)几乎所有数据表中都存在且只存在一个主键。
注意:不是满足非空、不重复要求的字段一定是主键,但主键一定满足非空、不重复的要求。非空、不重复是主键的必要条件而不是充分条件。所以在判断主键字段时,首先要从主键的业务意义出发,提前做出预判,然后从主键的物理意义出发,进行核实才能保证准确无误。
主键物理意义:在数据表中,同时满足非空、不重复两个条件的单个字段或多个字段的组合称为主键。
如果构成主键的字段只有一个,我们称为该主键为单字段主键。
如果主键由多个不同字段构成,我们称该主键为多字段联合主键。
想要在表结构数据中定位某个数值,需要用字段名+主键的方法。
表中的字段名是唯一的,可以用来识别不同列上的数据,作用与表格结构数据中的列名相似。
表中的主键值也是唯一的,可以用来识别不同行上的数据。
在数据表中作为主键使用的字段信息主要是以各类编号、ID、序列号等为主。
主键的业务意义是一个表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开,只有能够扩充以及描述主键信息的字段才能出现在同一个表中。反之,凡是不能用来扩充以及描述主键信息的字段就绝对不能合并在一个数据表中使用。