业务场景:现在有个需求,模拟大数据量下系统的抗压能力,需要在表C构造两亿条数据。虽然官方建议单表两千万条数据最好,但是想看下系统在不借助其他中间件的情况下,直接进行表操作是否可行。
已有逻辑结构在批量插入非常慢,批量插入5万条数据需要5H左右(因为还有其他链接表)。
数据场景:表A为主表,表示一个对象,表C是表A的一个属性表。例如表A有一条数据‘100001’的螺丝,该数据有长、宽、高、温度、湿度、成分等...40个属性,那么在表C中,就有40条数据。
现在在表A中插入500万的数据,那么在C表中就有2亿数据。 现在表已经建好,索引已经建好。直接使用已有的逻辑无法实现,现在修改思路如下:
修改方案:
第一步:数据量过大,单个表空间默认只能存32G数据量,存2亿数据远远不够。现在需要将该两个表的表空间增加数据文件,实际是同一个表空间,由于是同一个表且数据量很大,建议在将C表分区。
分区其实和增加表空间物理逻辑类似,是将数据文件按照不同规则存入不同的分区(按照某列的hash,或是日期列分区)。我是按照其中一列的hash进行分区,分了四个区。这样最后插入2亿数据之后,
每个分区的数据大概为5000万条。
第二步:将创建索引语句保存下来,再C表的所有索引删除,这样在插入数据的时候,能显示的缩短插入耗时。再待数据插入完成之后,重新建索引,由于我进行了分区,就根据原来索引建立本地分区索引。
第三步:优化业务逻辑,以前的逻辑是将数据封装好,通过for循环一条一条插入(实际逻辑很复杂,大概就是嵌套循环插入)。现在优化后逻辑将数据封装好了之后,add到list里面进行batchsave批量操作,会极大缩短时间。(add操作很复杂,代码量很多,主要功能就是将大批量的数据组装成一颗树结构)
第四步:由于只是做插入操作,目前测试下来,postman调用接口,运行一次插入2000万大概需要8小时,多操作几台机,同时调用该接口,传入不同的入参,这样就能同时插入数据,可以在24小时内完成2亿条数据的插入。
附注:写这个的博客的目的是记录下一些解决方法的思路,里面很多解决办法在网上能找到相应的SQL语句,此处就不重复粘贴。
-----如有阐有误,恳请指正