特殊需求:oracle单表插入两亿条数据

业务场景:现在有个需求,模拟大数据量下系统的抗压能力,需要在表C构造两亿条数据。虽然官方建议单表两千万条数据最好,但是想看下系统在不借助其他中间件的情况下,直接进行表操作是否可行。

                  已有逻辑结构在批量插入非常慢,批量插入5万条数据需要5H左右(因为还有其他链接表)。

数据场景:表A为主表,表示一个对象,表C是表A的一个属性表。例如表A有一条数据‘100001’的螺丝,该数据有长、宽、高、温度、湿度、成分等...40个属性,那么在表C中,就有40条数据。

                   现在在表A中插入500万的数据,那么在C表中就有2亿数据。  现在表已经建好,索引已经建好。直接使用已有的逻辑无法实现,现在修改思路如下:

修改方案:

第一步:数据量过大,单个表空间默认只能存32G数据量,存2亿数据远远不够。现在需要将该两个表的表空间增加数据文件,实际是同一个表空间,由于是同一个表且数据量很大,建议在将C表分区。

分区其实和增加表空间物理逻辑类似,是将数据文件按照不同规则存入不同的分区(按照某列的hash,或是日期列分区)。我是按照其中一列的hash进行分区,分了四个区。这样最后插入2亿数据之后,

每个分区的数据大概为5000万条。

第二步:将创建索引语句保存下来,再C表的所有索引删除,这样在插入数据的时候,能显示的缩短插入耗时。再待数据插入完成之后,重新建索引,由于我进行了分区,就根据原来索引建立本地分区索引。

第三步:优化业务逻辑,以前的逻辑是将数据封装好,通过for循环一条一条插入(实际逻辑很复杂,大概就是嵌套循环插入)。现在优化后逻辑将数据封装好了之后,add到list里面进行batchsave批量操作,会极大缩短时间。(add操作很复杂,代码量很多,主要功能就是将大批量的数据组装成一颗树结构)

第四步:由于只是做插入操作,目前测试下来,postman调用接口,运行一次插入2000万大概需要8小时,多操作几台机,同时调用该接口,传入不同的入参,这样就能同时插入数据,可以在24小时内完成2亿条数据的插入。

附注:写这个的博客的目的是记录下一些解决方法的思路,里面很多解决办法在网上能找到相应的SQL语句,此处就不重复粘贴。

-----如有阐有误,恳请指正

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值