| date|project|value|
±------±------±----+
|2018-01| p1| 100|
|2018-01| p2| 200|
|2018-01| p3| 300|
|2018-02| p1| 1000|
|2018-02| p2| 2000|
|2018-03| px| 999|
±------±------±----+
举个简单的例子,如上表,一条记录可能代表某个项目,在某个年月创造的价值。而在这个表里面,某一列,就代表一个属性,比如date代表日期,project代表项目名称。而这里每一行,代表一条独立,完整的记录,一条与另外一条记录,没有直接的关系。
这种结构,也是一般关系型数据库的数据结构。
透视表
透视表没有一个明确的定义,一般是观念上是指,为了方便进行数据分析,而对数据进行一定的重排,方便后续分析,计算等操作。透视表每一个元素及其对应的“坐标”一起形成一条完整的记录。
±------±-----±-----±----±----+
| date| p1| p2| p3| px|
±------±-----±-----±----±----+
|2018-01| 100.0| 200.0|300.0| 0.0|
|2018-02|1000.0|2000.0| 0.0| 0.0|
|2018-03| 0.0| 0.0| 0.0|999.0|
±------±-----±-----±----±----+
上面的表,是将列表进行重排后的透视表,其第一行和第一列可以理解成索引,而在表中根据索引可以确定一条唯一的值,他们一起组成一条相当于列表里的数据。
通过一般的定义,我们能看出,透视表主要用于分析,所以,一般的场景我们都会先对数据进行聚合,以后再对数据分析,这样也更有意义。就好像,将话费清单,做成透视表,尽管逻辑上没有任何问题,但是结果是可能比现在的清单列表更难查阅。
PS:一些可以借鉴的名词,目前维基百科并没有收录,也只能权且理解一下吧