数据仓库之数据一致性
不同阶段获取同样的指标,但是输出的数据不同,无法保持所有数据的一致性情况
栗子:
注册用户数:
是在公司表中存在,且公司名称不为空的数据。
存在问题:
在一月份注册数据10条,填写公司名称的有8条,此时统计注册公司数为:
月份 | 数量 |
---|---|
1 | 8 |
在2月份的时候未填写公司名称的用户,开始填写公司名称。然后3月份的时候再次统计注册公司数:
月份 | 数量 |
---|---|
1 | 10 |
同样是统计一月份的注册公司数,但是输出的数据却不一样
销售苗木公司数:
销售过苗木的公司数
存在问题:在1月份有10家上架了苗木
1月份销售苗木公司数:
月份 | 数量 |
---|---|
1 | 10 |
然后在2月份的时候有2家公司下架了苗木,3月份再次统计销售苗木公司数:
月份 | 数量 |
---|---|
1 | 8 |
解决方案:
使用拉链表,保存历史数据。
这样在不同阶段统计数据时,就可以保持数据获取一致性。