spark SQL实例（load和save操作）

BBlue-Sky

于 2017-04-23 11:12:54 发布

阅读量6.7k

点赞数 1

分类专栏： spark-sql

本文链接：https://blog.csdn.net/qq_33813365/article/details/70493563

版权

该博客主要介绍了Spark SQL中的load和save操作。load用于加载数据形成DataFrame，save则用于将DataFrame数据保存到文件。通过示例展示了默认使用parquet数据源以及手动指定数据源类型的操作，并提及了SaveMode的四种模式：ErrorIfExists（默认，数据已存在时抛出异常）、Append（追加数据）、Overwrite（覆盖数据）和Ignore（数据已存在则忽略）。

摘要由CSDN通过智能技术生成

load操作：主要用于加载数据，创建出DataFrame

save操作：主要用于将DataFrame中的数据保存到文件中

代码示例(默认为parquet数据源类型)

package wujiadong_sparkSQL

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by Administrator on 2017/2/3.
  */
object GenericLoadSave {
   
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("GenericLoadSave")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
//load默认是加载parquet格式文件
    val usersDF = sqlContext.read.load("hdfs://master:9000/student/2016113012/spark/users.parquet")
    usersDF.write.save("hdfs://master:9000/student/2016113012/parquet_out1")

  }

}