java 读取数据仓库_数据仓库：使用累积数据

最新推荐文章于 2022-10-12 23:33:18 发布

那些都不懂

最新推荐文章于 2022-10-12 23:33:18 发布

阅读量145

点赞数

文章标签： java 读取数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35851508/article/details/115044540

版权

我们的数据仓库使用累积数据(并且无法反转累积)从数据源创建雪花模式 . 我们必须应对的一个要求是我们的架构必须可用于根据日期范围创建报告 .

我们的架构看起来像这样(简化)：

+------------------------------------------+

| fact |

+-------+-----------------+----------------+

| id | statisticsDimId | dateRangeDimId |

+-------+-----------------+----------------+

| 1 | 1 | 10 |

| 2 | 2 | 11 |

| 3 | 3 | 12 |

| 4 | 4 | 13 |

| 5 | 5 | 14 |

| 6 | 5 | 15 |

| 7 | 5 | 16 |

| ... | ... | ... |

| 10001 | 9908 | 11 |

| 10002 | 9909 | 11 |

+-------+-----------------+----------------+

+-------------------------------------------------+

| date_range_dimension |

+-------+-----------------------------------------+

| id | startDateTime | endDateTime |

+-------+--------------------+--------------------+

| 10 | '2012-01-01 00:00' | '2012-01-01 23:59' |

| 11 | '2012-01-01 00:00' | '2012-01-02 23:59' |

| 12 | '2012-01-01 00:00' | '2012-01-03 23:59' |

| 13 | '2012-01-01 00:00' | '2012-01-04 23:59' |

| 14 | '2012-01-01 00:00' | '2012-01-05 23:59' |

| 15 | '2012-01-01 00:00' | '2012-01-06 23:59' |

| 16 | '2012-01-01 00:00' | '2012-01-07 23:59' |

| 17 | '2012-01-01 00:00' | '2012-01-08 23:59' |

| 18 | '2012-01-01 00:00' | '2012-01-09 23:59' |

| ... | ... | ... |

+-------+--------------------+--------------------+

+-----------------------------------------------------+

| statistics_dimension |

+-------+-------------------+-------------------+-----+

| id | accumulatedValue1 | accumulatedValue2 | ... |

+-------+-------------------+-------------------+-----+

| 1 | [not relevant] | [not relevant] | ... |

| 2 | [not relevant] | [not relevant] | ... |

| 3 | [not relevant] | [not relevant] | ... |

| 4 | [not relevant] | [not relevant] | ... |

| 5 | [not relevant] | [not relevant] | ... |

| 6 | [not relevant] | [not relevant] | ... |

| 7 | [not relevant] | [not relevant] | ... |

| ... | [not relevant] | [not relevant] | ... |

| ... | [not relevant] | [not relevant] | ... |

| 10001 | [not relevant] | [not relevant] | ... |

| 10002 | [not relevant] | [not relevant] | ... |

+-------+-------------------+-------------------+-----+

我们想要创建我们的报告数据集，如下所示：

SELECT *

FROM fact

INNER JOIN statistics_dimension

ON (fact.statisticsDimId = statistics_dimension.id)

INNER JOIN date_range_dimension

ON (fact.dateDimId = date_range_dimension.id)

WHERE

date_range_dimension.startDateTime = [start]

AND

date_range_dimension.endDateTime = [end]

问题是我们的统计维度中的数据已经累积，我们无法反转积累 . 我们计算了事实表中的近似行数，得到了5,250,137,022,180 . 我们的数据有大约250万个日期范围排列，我们需要将它们计算到我们的日期维度和事实表中，因为它们的积累 . 由于累积，SQL的SUM函数对我们不起作用(您不能添加属于非不同集的两个值) .

是否有一个我们可以遵循的最佳实践，使其在计算上可行？我们的架构设计有问题吗？

我们需要报告有关在线培训的数据 . 数据源是遗留数据提供者，其部分时间超过10年 - 因此没有人可以重建内部逻辑 . 统计维度包含 - 例如 - 用户在基于Web的培训(WBT)中完成的进度(％)，每个WBT页面的调用次数，WBT的状态(对于用户，例如“已完成”) ，aso . 关于数据提供者的重要事情是：它只是给我们一个当前状态的快照 . 我们无法访问历史数据 .

那些都不懂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。