将Spark计算结果写入至Mysql
在《Spark与Mysql(JdbcRDD)整合开发》文里我们介绍了如何通过Spark读取Mysql中的数据,在当时写那篇文章的时,Spark还没有提供通过Java来使用JdbcRDD的API,不过目前的Spark提供了Java使用JdbcRDD的API。
今天我们主要来谈谈如果将Spark计算的结果写入到Mysql或其他的关系型数据库里面。它的其实方式也很简单,代码如下所示:
图1
上边的代码其实是通过foreachPartition遍历RDD的每个分区,并且调用普通的Scala方法来写数据库。在运行程序之前需要确保数据库里面存在blog表,可以通过图3所示的语句创建:
图2
接着直接运行上述的代码即可。运行完成你就可以在数据库里面查询结果,结果如图4所示:
图3
另外,有一些需要你注意的地方:你最好使用forEachPartition 函数来遍历RDD,并且在每台Work上面创建数据库的connection。
如果你的数据库并发受限,可以通过控制数据的分区来减少并发。
在插入Mysql的时候最好使用批量插入。
确保你写入数据库过程能够处理失败,因为你插入数据库的过程可能会经过网络,这可能会导致数据插入到数据库失败。
不建议将你的RDD数据写入到Mysql等关系型数据库中。
本博客文章除特别声明,全部都是原创!
尊重原创,转载请注明: 转载自过往记忆(http://www.iteblog.com/)
本文链接: 【Spark将计算结果写入到Mysql中】(http://www.iteblog.com/archives/1275)