产品提交了一个方案,要做一个以我们的表和职位表为基础,统计计算每个职位、地区、薪资区间、工作年限、学历的数据数量,并计算平均薪资,和总数占比的统计信息产品。逻辑并不复杂,比较困难的地方在于,这两张表都是我们业务的核心表,数据量庞大,其中简历表大概有180w可用数据。
更困难的是,学历和工作年限这两个数据并不在简历表上而在个人信息表上。这就疯了,个人信息表起码有3000w的数据,如果一条一条组装,然后计算,那也很崩溃。如果连表查询,性能差不说,很容易耗尽资源,把服务器搞出问题(我本来已经优化了sql准备使用联表的方案,在离线库上跑了没问题,但是到上线的时候被老大毙了,绝对不允许上线QAQ)。
更改方案为:建中间表。
这个方案的问题是同步,因为不是在原表上做统计,所以数据同步是个大问题。最后和产品商量后决定只做增量同步,定期清除太早的数据。
初始化表的方案为,两千条两千条的从简历表取数据,然后根据简历表的个人id,去个人表获取相应信息进行组装后,一次插入中间表。
再对中间表进行group by 获取初始数据,粗加工后存入缓存。到前台需要用的时候拿出粗加工的基础数据进行自己需要的计算。
================= 2018.8.29 ==============
初始化表的方案为直接使用insert select 方法,java拼装2000条数据跑到一半缓存不够了。