Oracle 的数据批量读取

面对数亿条记录的大表,通过SQLLoader进行数据批量读取。然而,若要自行批量卸载数据,应考虑主键分布不均匀可能导致的线程负载不平衡和IO争用问题。解决方案是利用Oracle数据文件的ROWID信息,指定数据文件的起止ROWID,实现任务的均匀分配,减少IO冲突。文章引用了Quest的Sqoop Oracle插件及前人的经验分享,提供SQL示例链接。
摘要由CSDN通过智能技术生成

有这么一个大表假设数亿条记录,纯数据文本百Gb以上,批量读取的话咋整?

SQLLoader,算是一个选择吧。嗯,开并行,数据表本身也许已经partition过了。可是如果自己批量unload数据应该怎么做呢?多线程并行是个好主意,但是怎么并行呢?如果你在想什么数字主键均分的想法,那你也许不会有好的结果。原因,主键的值域范围不一定是均匀分布的,这会造成你某些工作线程很忙,有些却草草结束了。深层次的原因,你也许会碰到不同线程同时争用同一块数据文件的情况,这不是也许,可以说是肯定会发生的。那还有更直接的方法吗?不幸的是,还真有!

思路就是,Oracle存放的数据文件都是有据可查的,包括文件编号,blocks个数等等。你要做的就是指定相关数据文件的起止ROWID就可以了。一般来说表的扩展都是自动均匀的,比如20000条记录一个等等。这样我们基本上可以达到均匀分配任务,而且又避免了同一个数据文件的IO争用问题。

给出两个SQL,一个是取自Quest 的 Sqoop Oracle 插件程序,另一个取自前人的经验,(你知道我在干嘛了)。

    SELECT data_object_id, 
          file_id, 
          relative_fno, 
          file_batch, 
          MIN (start_block_id) start_block_id, 
          MAX (end_block_id) end_block_id, 
          SUM (blocks) blocks 
          FROM (SELECT o.data_object
Flink 可以通过 Oracle JDBC 驱动程序来读取 Oracle 数据库中的数据。在读取大量数据时,为了提高效率,可以使用 Flink 的批处理模式来读取数据。具体而言,可以使用 Flink 的 JdbcInputFormat 类来读取 Oracle 数据库中的批量数据。 以下是使用 Flink 读取 Oracle 数据库中批量数据的示例代码: ```java import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.io.jdbc.JDBCInputFormat; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.types.Row; public class ReadFromOracle { public static void main(String[] args) throws Exception { final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); JDBCInputFormat jdbcInputFormat = JDBCInputFormat.buildJDBCInputFormat() .setDrivername("oracle.jdbc.driver.OracleDriver") .setDBUrl("jdbc:oracle:thin:@//localhost:1521/orcl") .setUsername("username") .setPassword("password") .setQuery("SELECT id, name FROM users") .setRowTypeInfo(...) .finish(); env.createInput(jdbcInputFormat) .map((Row row) -> Tuple2.of(row.getField(0), row.getField(1))) .print(); } } ``` 在上述代码中,我们使用 `JDBCInputFormat` 类来读取 Oracle 数据库中的数据。需要设置数据库的 URL、用户名和密码,并指定要读取的表和字段。同时还需要设置 `RowTypeInfo` 对象来描述读取数据类型。最后,我们使用 `env.createInput(jdbcInputFormat)` 创建一个输入数据集,并使用 `map` 方法将每行数据转换为一个 `Tuple2` 对象,并打印出来。 需要注意的是,如果要读取大量数据,还需要设置适当的并行度和分区策略,以保证读取效率和性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值