数据库大数据统计的设计方案

最新推荐文章于 2024-07-28 03:30:28 发布

GneitTimes

最新推荐文章于 2024-07-28 03:30:28 发布

阅读量883

点赞数

分类专栏： Database Group 文章标签： Hadoop MySQL Oracle HP 应用服务器

Database Group 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

需要对一个大数据量（数量级在亿级别）的表，进行数据统计。

我想到要对数据库表进行水平切分。

为了后面方便描述，我先假设表里有三个字段，一个是用户的ID，一个是交易的金额，一个是交易的时间。

但问题是，比如我的统计要求是：要根据指定用户ID，以及一定交易时间区间（比如当前时间之前1个月内），用户金额的汇总达到一定数额的，我需要获取满足这些条件的用户ID列表。

假设设计水平切分，可以根据用户创建创建先后进行切分（其实针对前面描述的统计要求，根据用户的ID进行切分会更好。但考虑到有些统计项不包括用户ID，所以没有选择根据用户ID进行切分）。

当我们对数据完成切分之后，问题就出在对每个切片进行统计这里，因为我不知道其他的切片里，该用户的金额是多少，所以在对每一个切片进行统计的时候，无法判断是否满足统计条件（金额大于指定的值）。

所以就导致了要对每个切片里所有用户做group，然后再汇总每个切片的统计结果。

有没有什么更好的解决思路？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。