java+dataset+foreach_Spark Java使用DataFrame的foreach/foreachPartition

最新推荐文章于 2022-01-07 18:29:21 发布

大象ROV

最新推荐文章于 2022-01-07 18:29:21 发布

阅读量703

点赞数

文章标签： java+dataset+foreach

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42356340/article/details/114500801

版权

本文探讨了在Spark 2.x中，如何使用DataFrame的foreachPartition方法处理大数据，特别是在面对需要与JDBC交互，而目标表有自增字段时的问题。通过分析源码，展示了如何在Java中实现类似于Scala的匿名函数，解决任务序列化问题，避免Driver OOM，并提供了Java风格的代码示例。

摘要由CSDN通过智能技术生成

Spark已更新至2.x，DataFrame归DataSet管了，因此API也相应统一。本文不再适用2.0.0及以上版本。

DataFrame原生支持直接输出到JDBC，但如果目标表有自增字段(比如id)，那么DataFrame就不能直接进行写入了。因为DataFrame.write().jdbc()要求DataFrame的schema与目标表的表结构必须完全一致(甚至字段顺序都要一致)，否则会抛异常，当然，如果你SaveMode选择了Overwrite，那么Spark删除你原有的表，然后根据DataFrame的Schema生成一个。。。。字段类型会非常非常奇葩。。。。

于是我们只能通过DataFrame.collect()，把整个DataFrame转成List到Driver上，然后通过原生的JDBC方法进行写入。但是如果DataFrame体积过于庞大，很容易导致Driver OOM(特别是我们一般不会给Driver配置过高的内存)。这个问题真的很让人纠结。

翻看Spark的JDBC源码，发现实际上是通过foreachPartition方法，在DataFrame每一个分区中，对每个Row的数据进行JDBC插入，那么为什么我们就不能直接用呢？

Spark JdbcUtils.scala部分源码：

def saveTable(df: DataFrame,url: String,table: String,properties: Properties = new Properties()) {

val dialect = JdbcDialects.get(url)

val nullTypes: Array[Int] = df.schema.fields.map { field =>

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。