十五.Spark SQL之Save Modes几种存储形式

最新推荐文章于 2024-08-12 07:00:50 发布

飞翔的小宇宙

最新推荐文章于 2024-08-12 07:00:50 发布

阅读量1.4w

点赞数 3

分类专栏： Spark SQL 文章标签： Save Modes存储形式

本文链接：https://blog.csdn.net/ligh_sqh/article/details/83658174

版权

Spark SQL 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

Save Modes:

Save操作可以选择使用SaveMode，它指定如果存在的话如何处理现有数据。重要的是要认识到这些保存模式不使用任何锁定，也不是原子的。此外，当执行覆盖时，数据将在写入新数据之前被删除。
在这里插入图片描述

实践

1.读取一个json文件进行测试:

scala> val df = spark.read.format("json").load("file:///root/data/json_schema_infer.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, gender: string ... 2 more fields]
scala> df.show

显示结果:
在这里插入图片描述
2.使用overwrite方式以parquet形式写出去:

df.select("name").write.format("parquet").mode("overwrite").save("file:///root/data/overwrite")

在目录中就会生成相应的文件,再次执行还会生成,但是生成的时间变了,因为覆盖了以前生成的文件

3.使用append方式以parquet形式写出去:

scala> df.select("name").write.format("parquet").mode("append").save("file:///root/data/overwrite")

不会覆盖之前的文件,会生成新的文件:

在这里插入图片描述

4.使用ignore方式以parquet形式写出去:

scala> df.select("name").write.format("parquet").mode("ignore").save("file:///root/data/overwrite")

在这个目录下如果有这种类型的文件就不会生成,如果没有就会创建.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

飞翔的小宇宙

关注关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark SQL之数据源(Data Source)与保存模式(Save Modes)

Thomson617的博客

02-22

3410

本篇大纲: (一).Generic Load/Save Functions (二).Parquet Files (三).ORC Files (四).JSON Files (五).Hive Tables (六).JDBC To Other Databases (七).Avro Files (八).Troubleshooting SparkSQL支持通过DataFrame接口对各种数据源进行操作。D...

Spark SQL saveMode 方式

01-17

8473

package com.bjsxt.java.spark.sql.loadsave; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQL

参与评论您还未登录，请先登录后发表或查看评论

Kafka ACK机制详解！

最新发布

m0_54369189的博客

08-12

535

什么是 Kafka的 ACK机制？它是如何工作的？什么是 ISR？它是如何工作的？ACK机制是如何在性能和可靠性之间权衡的？

SPARK-SQL 写数据的时候，Save Modes几种存储形式

小哇

08-11

2425

SaveMode.ErrorIfExists(对应着字符串"error"):表示如果目标文件目录中数据已经存在了，则抛异常(这个是默认的配置) SaveMode.Append(对应着字符串"append"):表示如果目标文件目录中数据已经存在了,则将数据追加到目标文件中 SaveMode.Overwrite(对应着字符串"overwrite"):表示如果目标文件目录中数据已经存在了，则用需要保存的数据覆盖掉已经存在的数据 SaveMode.Ignore(对应着字符串为:"ignore"):表示如果目标文件.

[spark] SaveMode

言之。

12-27

1万+

覆盖模式是指将DataFrame保存到数据源时，如果数据/表已经存在，则现有数据将被DataFrame的内容覆盖。注意:Overwrite 模式会覆盖已存在的表并删除表中的数据，然后写入新的数据。如果昨天存入的数据也在同一表中，它们将被新的数据替代，整个表的内容将被更新。如果您希望在不删除原有数据的情况下追加新的数据，可以选择使用 Append 模式。这样，新的数据将会在表的末尾追加，而不会影响已有的数据。

大数据技术之SparkSQL——数据的读取和保存

five小点心的博客

05-08

3692

SparkSQL提供了通用的保存数据和数据加载的方式。根据不同的参数读取，并保存不同格式的数据。SparkSQL默认读取和保存的文件格式为Parquet。

SparkSql的保存模式

秋雨ヾ的博客

03-18

526

四种保存模式第一种 SaveMode.ErrorIfExists 第二种 SaveMode.Append 第三种 SaveMode.Overwrite 第四种 SaveMode.Ignore:CREATE TABLE IF NOT EXISTS

spark数据查询语句select_Spark学习之Spark SQL

weixin_35025136的博客

12-30

4874

Spark SQL一、Spark SQL基础1、Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执...

Spark SQL数据加载和保存实战

g6uqwseseo的博客

05-05

351

一：前置知识详解： Spark SQL重要是操作DataFrame，DataFrame本身提供了save和load的操作， Load：可以创建DataFrame， Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。二：Spark SQL读写数据代码实战： import org.

Spark(1.6.1) Sql 编程指南+实战案例分析

至道

06-06

1万+

Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。概述(Overview) Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类，或者它子类中的一个。为了创建一个基本的SQLCont

Spark SQL 教程

zhang__rong的博客

03-09

198

一、什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 image.png 二、为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduc...

Spark SQL使用数据源

weixin_43520450的博客

05-12

438

一、通用的Load/Save函数 1.1 什么是parquet文件？ Parquet是列式存储格式的一种文件类型，列式存储有以下的核心：（1）可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。（2）压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delta Encoding）进一步节约存储空间。（3）只读取需要的列，支持向量运算，能够获取更好的扫描性能。（4）Parquet格式是Spark SQL的默认数据源

HDFS之SaveMode

孤独的博客

08-15

444

Safemode On startup, the NameNode enters a special state called Safemode. Replication of data blocks does not occur when the NameNode is in the Safemode state. The NameNode receives Heartbeat and Bloc...

RDD保存SaveMode

zghgchao

12-27

2116

Save Modes Save operations can optionally take a SaveMode, that specifies how to handle existing data if present. It is important to realize that these save modes do not utilize any locking and a

Spark之Save Modes

qq_34341930的博客

05-29

1913

保存操作可以选择使用SaveMode，它指定如何处理现有数据（如果存在）。重要的是要意识到这些保存模式不使用任何锁定并且不是原子的。此外，执行覆盖时，将在写出新数据之前删除数据。 Scala/Java Any Language Meaning SaveMode.ErrorIfExists(default) "error"(default) 将DataFram...

Spark15：Spark SQL：DataFrame常见算子操作、DataFrame的sql操作、RDD转换为DataFrame、load和save操作、SaveMode、内置函数

weixin_40612128的博客

03-09

2481

前面我们学习了Spark中的Spark core，离线数据计算，下面我们来学习一下Spark中的Spark SQL。一、Spark SQL 二、SparkSession 三、创建DataFrame 四、DataFrame常见算子操作五、DataFrame的sql操作六、RDD转换为DataFrame 1、反射方式 2、编程方式七、load和save操作八、SaveMode 九、内置函数 ...

spark write写入数据task failed失败在SaveMode.Append与SaveMode.Overwrite两种模式下的不同表现

祁东握力的博客

05-06

2470

1、SaveMode.Append task失败重试，并不会删除上一次失败前写入的数据（文件根据分区号命名），重新执行时会继续追加数据。所以会出现数据重复。 2、SaveMode.Overwrite task失败重试，会删除该分区上次失败所写入的数据文件，然后创建一个新的数据文件写入数据。所以不会出现数据重复。 ...

spark基础知识选择、判断、简答题。