分批读取Oracle数据(续)

        测试表明,如果在数据循环发送的过程中,如果有新数据写入到数据库,如果ORDER BY ROWID,那么数据有可能就重复传送,如果数据是关于财经的,那么这肯定是个致命的问题。所以可以先SELECT数据,并且ORDER BY 一个跟数据密切相关的DATE型字段 + Primary Key,然后再对数据用ROWNUM依次编号,最后选择目标数据,这样循环发送,应该就没什么问题了.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Spark SQL中,可以使用分区读取或者分批读取来提高读取数据库数据的性能。 分区读取是指将表按照某个字段的值进行分区,每个分区都可以独立地进行读取和处理。这种方式适用于表中某个字段的取值分布比较均匀的情况。在Spark SQL中,可以使用`partitionColumn`参数来指定分区字段,使用`lowerBound`和`upperBound`参数来指定分区范围,使用`numPartitions`参数来指定分区数。 分批读取是指将表按照一定大小进行分批读取,每批数据都可以独立地进行处理。这种方式适用于表中某个字段的取值分布不均匀,或者需要定期地增量读取数据的情况。在Spark SQL中,可以使用`fetchSize`参数来指定每批数据的大小,使用`lowerBound`和`upperBound`参数来指定数据范围。 下面是一个使用分批读取的例子: ```scala import org.apache.spark.sql.{DataFrame, SQLContext} class DatabaseReader(sqlContext: SQLContext) { val url = "jdbc:mysql://localhost:3306/test" val user = "root" val password = "root" def readTable(tableName: String, batchSize: Int): DataFrame = { val jdbcDF = sqlContext.read.format("jdbc") .option("url", url) .option("dbtable", tableName) .option("user", user) .option("password", password) .option("fetchSize", batchSize) .option("lowerBound", 0) .option("upperBound", 1000000) .option("numPartitions", 10) .load() jdbcDF } } val reader = new DatabaseReader(sqlContext) val df = reader.readTable("mytable", 1000) ``` 在这个例子中,我们使用`fetchSize`参数来指定每批数据的大小为1000,使用`lowerBound`和`upperBound`参数来指定数据范围为0到1000000,使用`numPartitions`参数来指定分区数为10。这样就可以按照每批1000条数据进行读取,并且可以并行地进行处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值