大量数据插入探讨(一)

[align=center][b]大量数据插入探讨[/b][/align]

当将文件中大量的数据插入到数据库时,我们就要考虑用什么样的插入策略才能够提高时间和空间的效率了。以下有各种插入策略,其中各有优缺点,供大家探讨。

当插入的数据不需要考虑数据的重复性时,这比较好办。可以用批量插入或用一些数据库自身提供的大量数据导入工具(如:BCP)或者java 调用sqlloader来完成。

当插入的数据需要考虑数据的重复性时,就需要考虑时间和空间的效率了。如果在插入每条数据之前先判断数据库是否有重复数据,这样会频繁访问数据库,极大的提高了时间的复杂度,随着数据库数据量的不断增加,效率会越来越低。假设将要大量数据读入内存,再插入数据库,这样虽然提高了时间效率,却大大提高了空间成本,有可能造成内出溢出,并且只能过滤掉文件中的重复数据。时间复杂度 2n.

有一种更好的策略就是在插入数据库时不考虑重复性,批量插入完以后删除重复记录这样就可以大大降低时间、空间复杂度。当然也可以借助中间表来完成这一策略。

导入是应注意一下几点:

1.最好分批导入,导入一批后最好提交(commit) ,在用jdbc的(executeBatch)批量处理时一定注意最大上限,否则只会执行一部分sql语句,超过上限的sql会自动丢弃。
2.注意内存使用(不要出现内存益出)。
3.效率问题,ID最好使用序列。
4.尽量使用大量导入工具(bcp,sqlLoader)来完成。
5.如果数据量很大的话在导入时最好不要做太多的判断,这样会影响导入速度,可以在导入完成后做一些操作(删除重复记录),注意建立组合索引。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值