Spark-SQL之load和save操作

S_Running_snail

于 2019-04-13 13:07:19 发布

阅读量471

点赞数

分类专栏： spark 文章标签： spark-SQL

本文链接：https://blog.csdn.net/S_Running_snail/article/details/89280996

版权

本文介绍了Spark SQL中的load和save操作，用于DataFrame的数据加载与保存。load方法用于从各种数据源创建DataFrame，而save方法则将DataFrame数据保存到文件。手动指定数据源类型可以实现不同格式间的数据转化，例如将json数据保存为parquet格式。同时，Spark SQL的save模式提供了处理已有数据的策略，包括覆盖、追加等，但需要注意save操作不具原子性，可能导致脏数据问题。

摘要由CSDN通过智能技术生成

案例：

Spark SQL的load，save的案例实战 -->> GenericLoadSave

load和save操作：

对于Spark SQL的DataFrame来说，无论是从什么数据源创建出来的DataFrame，都有一些共同的load和save操作。load操作主要用于加载数据，创建出DataFrame；save操作，主要用于将DataFrame中的数据保存到文件中。

Java版本
DataFrame df = sqlContext.read().load("users.parquet");
df.select("name", "favorite_color").write().save("namesAndFavColors.parquet");

Scala版本
val df = sqlContext.read.load("users.parquet")
df.select("name", "favorite_color").write.save("namesAndFavColors.parquet")