报表类大数据数据存储方案和财务数据脱敏

面对跨月查询需求和数据量增长,原有的MySQL存储方案达到瓶颈。文章探讨了转向分布式大数据存储的可能性,如Hive,并通过压力测试验证其性能。同时,针对财务数据的敏感性,提出了加密存储方案,确保加密前后聚合操作的一致性,以保证数据安全。总结指出,对于超过2000w数据量的报表场景,Hive是良好选择,并提倡勇于尝试新技术并进行充分测试。
摘要由CSDN通过智能技术生成

工作需求:

存储: mysql

数据量: 每月100w~500w

现状: 当前存储没有问题,单月查询在总表2000w之内,索引优化好,能支撑现有业务

需求:业务比较稳定后业务方有跨月查询的需求,折中估计每月250w数据,查询12月,数据量为3000w,单表数据量突破经验值2000w常规的索引优化左襟见拙

分析: 分表是是不可行,当前跨月的报表分析结果主要为一个复杂的查询,全量聚合操作+子查询。落地一张聚合表,可以探索但,前端报表筛选条件涉及到各个维度,存在储存最粗粒度的数据就要牺牲前端筛选条件,是不能接受,存最细单表已预估一年量为3000w,传统的调优参数,mysql存储已经到了天花板,加内存和机械硬盘换固态硬盘?成本太高,不能接受,缓存层思考,预估一些用户的查询行为,比如只允许按季度查询?这样按照季度分区,可行,但限制了报表分析能力,可接受但总是糜烂着工程师的妥协。思考过后,能不能从传统的数据库转向分布式大数据的存储方案,例如mycat, hive, Hbase, impala。

思考: 传统数据库因为有着数据量小查询快,而且具备强一致性的锁机制和事务机制,分析本需求,报表只是单纯的供查询,0事务,不存在加锁增删改操作,因为之前使用mycat的经验,坑比较多,比如count函数会出现多个分片的结果,所以目标锁定为hive,hive的表结构可以和mysql表结构相似,使用也较SQL比较相似。

待解决的问题

  1. 压测是否满足查询的性能问题,跨月数据量已3年数据量预估最大值进
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值