spark RDD算子（十一）之RDD Action 保存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile等

最新推荐文章于 2022-04-18 13:08:26 发布

屡傻不改

最新推荐文章于 2022-04-18 13:08:26 发布

阅读量593

点赞数 1

分类专栏： Spark 文章标签： spark spark RDD

本文链接：https://blog.csdn.net/qianchun22/article/details/109615769

版权

本文详细介绍了Spark RDD的保存操作，包括saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、saveAsHadoopFile、saveAsHdoopDataset、saveAsNewAPIHadoopFile和saveAsNewAPIHadoopDataset。讨论了各种保存方法的使用方式，例如指定压缩格式、保存到HDFS和HBase，并提供了相关的注意事项和示例。

摘要由CSDN通过智能技术生成

一、saveAsTextFile

函数定义

def saveAsTextFile(path: String): Unit
def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit

saveAsTextFile用于将RDD以文本文件的格式存储到文件系统中
codec参数可以指定压缩的类名

var rdd1 = sc.makeRDD(1 to 10,2) 
scala> rdd1.saveAsTextFile("hdfs://cdh5/tmp/lxw1234.com/") //保存到HDFS 
hadoop fs -ls /tmp/lxw1234.com 
Found 2 items 
-rw-r--r-- 2 lxw1234 supergroup 0 2015-07-10 09:15 /tmp/lxw1234.com/_SUCCESS 
-rw-r--r-- 2 lxw1234 supergroup 21 2015-07-10 09:15 /tmp/lxw1234.com/part-00000 

hadoop fs -cat /tmp/lxw1234.com/part-00000

注意：如果使用rdd1.saveAsTextFile(“file:///tmp/lxw1234.com”)将文件保存到本地文件系统，那么只会保存在Executor所在机器的本地目录。

指定压缩格式保存

rdd1.saveAsTextFile("hdfs://cdh5/tmp/lxw1234.com/",classOf[com.hadoop.compression.lzo.LzopCodec]) 

hadoop fs -ls /tmp/lxw1234.com 
-rw-r--r-- 2 lxw1234 supergroup 0 2015-07-10 09:20 /tmp/lxw1234.com/_SUCCESS 
-rw-r--r-- 2 lxw1234 supergroup 71 2015-07-10 09:20 /tmp/lxw1234.com/part-00000.lzo 

hadoop fs -text /tmp/lxw1234.com/part-00000.lzo

二、saveAsSequenceFile

saveAsSequenceFile用于将RDD以SequenceFile的文件格式保存到HDFS上。
用法同saveAsTextFile

三、saveAsObjectFile

函数定义

def saveAsObjectFile(path: String): Unit

saveAsObjectFile用于将RDD中的元素序列化成对象，存储到文件中。
对于HDFS，默认采用SequenceFile保存

var rdd1 = sc.makeRDD(1 to 10,2) 
rdd1.saveAsObjectFile("hdfs://cdh5/tmp/lxw1234.com/") 

hadoop fs -cat /tmp/lxw1234.com/part-</

最低0.47元/天解锁文章