更多文章请前往:www.isaacsun.xyz
入职之后很长一段时间,我都对业界数据分析里各种术语感到困惑:工作中经常会听到如“维度”、“粒度”、“尺度”和“口径”这样的词汇,起初,我以为这些都是某些深奥的专业术语,但随着时间的推移,我意识到其实它们与我们的日常生活关系密切,只是我们未曾如此系统地去认识它们。
想象一下,我们手中的数据就像一个庞大的商品仓库,这个仓库中的每一件商品都是独特的,我们如何快速准确地找到需要的商品?这时,那些“神秘”的词汇就像是我们手中的指南针和放大镜,帮助我们定位和深入观察。
那么让我们从一个数据仓库出发,开始理解各个术语吧!
维度 (Dimension)
维度指的是数据的分类特征或属性。例如,性别能够取值为:男/女/其他,我们可以通过性别的取值对人群进行分类,那么性别就是一种典型的维度;
刚刚的数据仓库里的数据,我们可以从不同的角度去进行观测,观测的角度即为“维度”:多数情况下,维度的不同取值为我们提供了拆分数据的方法。如下图所示,一个维度存在三种属性 A / B / C,我们基于该维度对数据进行观测,就可以把所有的数据记录分为三类。
通过不同的维度将数据进行拆分,能够获取基础的分类 / 分属性分布信息,如果我们同时使用多个维度对数据进行拆分,也就在结构上得到了数据透视表(又称为:数据交叉表、枢纽表、关联表、相依表)。例如,在分析数据时,我们经常说“按照日期、客户类别等维度进行透视”,如果日期分为周一到周日的 7 天,客户类别分为“小型客户、中型客户、大型客户”3种类别,那么我们或许可以构建一个 7 行 ✕ 3 列的数据透视表:
日期 / 客户类别 | 小型客户 | 中型客户 | 大型客户 |
---|---|---|---|
周一 | |||
周二 | < |