Oracle 的数据批量读取

最新推荐文章于 2024-05-21 23:42:22 发布

软猫克鲁

最新推荐文章于 2024-05-21 23:42:22 发布

阅读量2.9k

点赞数

分类专栏： SQL相关 SQL

本文链接：https://blog.csdn.net/lj0425/article/details/17954289

版权

面对数亿条记录的大表，通过SQLLoader进行数据批量读取。然而，若要自行批量卸载数据，应考虑主键分布不均匀可能导致的线程负载不平衡和IO争用问题。解决方案是利用Oracle数据文件的ROWID信息，指定数据文件的起止ROWID，实现任务的均匀分配，减少IO冲突。文章引用了Quest的Sqoop Oracle插件及前人的经验分享，提供SQL示例链接。

摘要由CSDN通过智能技术生成

有这么一个大表假设数亿条记录，纯数据文本百Gb以上，批量读取的话咋整？

SQLLoader，算是一个选择吧。嗯，开并行，数据表本身也许已经partition过了。可是如果自己批量unload数据应该怎么做呢？多线程并行是个好主意，但是怎么并行呢？如果你在想什么数字主键均分的想法，那你也许不会有好的结果。原因，主键的值域范围不一定是均匀分布的，这会造成你某些工作线程很忙，有些却草草结束了。深层次的原因，你也许会碰到不同线程同时争用同一块数据文件的情况，这不是也许，可以说是肯定会发生的。那还有更直接的方法吗？不幸的是，还真有！

思路就是，Oracle存放的数据文件都是有据可查的，包括文件编号，blocks个数等等。你要做的就是指定相关数据文件的起止ROWID就可以了。一般来说表的扩展都是自动均匀的，比如20000条记录一个等等。这样我们基本上可以达到均匀分配任务，而且又避免了同一个数据文件的IO争用问题。

给出两个SQL，一个是取自Quest 的 Sqoop Oracle 插件程序，另一个取自前人的经验，（你知道我在干嘛了）。

    SELECT data_object_id, 
          file_id, 
          relative_fno, 
          file_batch, 
          MIN (start_block_id) start_block_id, 
          MAX (end_block_id) end_block_id, 
          SUM (blocks) blocks 
          FROM (SELECT o.data_object