saveas java_Spark算子：RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset...

最新推荐文章于 2022-05-20 10:35:52 发布

weixin_39606799

最新推荐文章于 2022-05-20 10:35:52 发布

阅读量323

点赞数

文章标签： saveas java

本文链接：https://blog.csdn.net/weixin_39606799/article/details/114870801

版权

本文介绍了Spark中的saveAsNewAPIHadoopFile和saveAsNewAPIHadoopDataset算子，用于将RDD数据保存到HDFS和HBase。saveAsNewAPIHadoopFile使用新版本Hadoop API写入HDFS，而saveAsNewAPIHadoopDataset则适用于HBase写入。通过示例展示了如何配置和使用这两个函数。

摘要由CSDN通过智能技术生成

关键字：Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

saveAsNewAPIHadoopFile

def saveAsNewAPIHadoopFile[F <: outputformat v string fm: classtag unit>

def saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat _ conf: configuration="self.context.hadoopConfiguration):" unit>

saveAsNewAPIHadoopFile用于将RDD数据保存到HDFS上，使用新版本Hadoop API。

用法基本同saveAsHadoopFile。

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import SparkContext._

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat

import org.apache.hadoop.io.Text

import org.apache.hadoop.io.IntWritable

var rdd1 = sc.makeRDD(Array(("A",2),("A",1),("B",6),("B",3),("B",7)))

rdd1.saveAsNewAPIHadoopFile("/tmp/lxw1234/",classOf[Text],classOf[IntWritable],classOf[TextOutputFormat[Text,IntWritable]])

saveAsNewAPIHadoopDataset

def saveAsNewAPIHadoopDataset(conf: Configuration): Unit

作用同saveAsHadoopDataset,只不过采用新版本Hadoop API。

以写入HBase为例：

HBase建表：

create ‘lxw1234′,{NAME => ‘f1′,VERSIONS => 1},{NAME => ‘f2′,VERSIONS => 1},{NAME => ‘f3′,VERSIONS => 1}

完整的Spark应用程序：

package com.lxw1234.test

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import SparkContext._

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.mapreduce.Job

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.client.Result

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.hbase.client.Put

object Test {

def main(args : Array[String]) {

val sparkConf = new SparkConf().setMaster("spark://lxw1234.com:7077").setAppName("lxw1234.com")

val sc = new SparkContext(sparkConf);

var rdd1 = sc.makeRDD(Array(("A",2),("B",6),("C",7)))

sc.hadoopConfiguration.set("hbase.zookeeper.quorum ","zkNode1,zkNode2,zkNode3")

sc.hadoopConfiguration.set("zookeeper.znode.parent","/hbase")

sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE,"lxw1234")

var job = new Job(sc.hadoopConfiguration)

job.setOutputKeyClass(classOf[ImmutableBytesWritable])

job.setOutputValueClass(classOf[Result])

job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

rdd1.map(

x => {

var put = new Put(Bytes.toBytes(x._1))

put.add(Bytes.toBytes("f1"), Bytes.toBytes("c1"), Bytes.toBytes(x._2))

(new ImmutableBytesWritable,put)

}

).saveAsNewAPIHadoopDataset(job.getConfiguration)

sc.stop()

}

注意：保存到HBase，运行时候需要在SPARK_CLASSPATH中加入HBase相关的jar包。

更多关于Spark算子的介绍，可参考 Spark算子系列文章：

如果觉得本博客对您有帮助，请赞助作者。

weixin_39606799

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫