Spark Streaming 将数据保存在msyql中

最新推荐文章于 2022-08-05 17:20:10 发布

守猫de人

最新推荐文章于 2022-08-05 17:20:10 发布

阅读量533

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/ZMC921/article/details/75008786

版权

该博客探讨了Spark Streaming的持久化设计模式，特别是如何使用DStream的输出操作，如print、saveAs*Files及foreachRDD。重点介绍了如何使用foreachRDD与MySQL交互，包括建立连接池、批处理写入数据，以及优化MySQL操作以提高效率。

摘要由CSDN通过智能技术生成

print：打印driver结点上每个Dstream中的前10个batch元素，常用于开发和调试
saveAsTextFiles(prefix, [suffix])：将当前Dstream保存为文件，每个interval batch的文件名命名规则基于prefix和suffix："prefix-TIME_IN_MS[.suffix]".
saveAsObjectFiles(prefix, [suffix])：将当前的Dstream内容作为Java可序列化对象的序列化文件进行保存，每个interval batch的文件命名规则基于prefix和suffix：: "prefix-TIME_IN_MS[.suffix]".
saveAsHadoopFiles(prefix, [suffix])：将Dstream以hadoop文件的形式进行保存，每个interval batch的文件命名规则基于prefix和suffix：: "prefix-TIME_IN_MS[.suffix]".
foreachRDD(func)：最通用的输出操作，可以对从数据流中产生的每一个RDD应用函数_fun_。通常_fun_会将每个RDD中的数据保存到外部系统，如：将RDD保存到文件，或者通过网络连接保存到数据库。值得注意的是：_fun_执行在跑应用的driver进程中，并且通常会包含RDD action以促使数据流RDD开始计算。