【疑难杂症】百万级数据跨表数据统计和计算

20 篇文章 1 订阅
17 篇文章 0 订阅

产品提交了一个方案,要做一个以我们的表和职位表为基础,统计计算每个职位、地区、薪资区间、工作年限、学历的数据数量,并计算平均薪资,和总数占比的统计信息产品。逻辑并不复杂,比较困难的地方在于,这两张表都是我们业务的核心表,数据量庞大,其中简历表大概有180w可用数据。

更困难的是,学历和工作年限这两个数据并不在简历表上而在个人信息表上。这就疯了,个人信息表起码有3000w的数据,如果一条一条组装,然后计算,那也很崩溃。如果连表查询,性能差不说,很容易耗尽资源,把服务器搞出问题(我本来已经优化了sql准备使用联表的方案,在离线库上跑了没问题,但是到上线的时候被老大毙了,绝对不允许上线QAQ)。

更改方案为:建中间表。

这个方案的问题是同步,因为不是在原表上做统计,所以数据同步是个大问题。最后和产品商量后决定只做增量同步,定期清除太早的数据。

初始化表的方案为,两千条两千条的从简历表取数据,然后根据简历表的个人id,去个人表获取相应信息进行组装后,一次插入中间表。

再对中间表进行group by 获取初始数据,粗加工后存入缓存。到前台需要用的时候拿出粗加工的基础数据进行自己需要的计算。

 

================= 2018.8.29 ==============

初始化表的方案为直接使用insert select  方法,java拼装2000条数据跑到一半缓存不够了。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值