Spark SQL,DF,RDD cache常用方式

高达一号

已于 2023-11-28 13:05:58 修改

阅读量256

点赞数

分类专栏： Spark 文章标签： spark sql java

于 2023-11-28 07:57:47 首次发布

本文链接：https://blog.csdn.net/u010003835/article/details/134658455

版权

Spark 专栏收录该内容

67 篇文章 9 订阅

订阅专栏

RDD中的cache

调用cache方法

val testRDD = sc.parallelize(Seq(elementA, elementB, elementC)).
    map(x => (x._1, x._2)).setName("testRDD")

testRDD.cache()

dataframe中的cache

利用catalog以表的形式对数据进行缓存

import org.apache.spark.SparkConf
import org.apache.spark.sql.{SaveMode, SparkSession}
import org.apache.spark.sql.functions.udf



val conf = new SparkConf().setAppName(s"test_app")
val spark = SparkSession.builder().config(conf).getOrCreate()
spark.read.parquet(s"${BASEPATH}/dws_live_mid_stat_order_di/event_day=${event_day}").createOrReplaceTempView(s"dwd_flow_sessionid_di")

spark.catalog.cacheTable("dwd_flow_sessionid_di")
spark.catalog.uncacheTable("dwd_flow_sessionid_di")

SQL中的cache

    spark.sql(
      s"""
         |cache table flow_basic_tmp as
         |select
         |    *
         |from
         |    test.tmp_live_mid_stat_order_di
         |""".stripMargin)

UNCACHE TABLE [ IF EXISTS ] table_identifier

SQL cache 相关文档，可以懒加载 CACHE TABLE - Spark 3.5.0 Documentation

需要注意的点：

Spark.createDateFrame需要执行

基于DF 需要执行action，才能让RDD cache住

优惠劵

高达一号

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL,DF,RDD cache常用方式

对于dataframe。
复制链接

扫一扫

专栏目录

Spark SQL数据加载和保存实例讲解

12-16

一、前置知识详解 Spark SQL重要是操作DataFrame，DataFrame本身提供了save和load的操作， Load：可以创建DataFrame， Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。二、Spark SQL读写数据代码实战 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkC

sparkRDD函数大全

02-28

spark rdd函数大全。spark rdd操作为core操作，虽然后续版本主要以dataset来操作，但是rdd操作也是不可忽略的一部分。

参与评论您还未登录，请先登录后发表或查看评论

spark sql： rdd 和 DataFrame的转换

eyeofeagle的博客

11-30

1012

1， DataFrame和 DataSet的关系 type DataFrame = Dataset[Row] 2， RDD 和 DataFrame 的关系 import sparkSession.implicits._ val df = rdd.toDF 3, 把一般化数据，变为结构化数据，使用sql等工具进行查询 import org.apache.spark.sql.SparkSess...

SparkDF操作与SQL交互和相关函数整理

Elvis__c的博客

03-15

3490

SparkDF与SparkSQL交互操作函数笔记一、生成DF方式1.toDF2.createDataFrame3.list 转 DF4.schema动态创建DataFrame5.通过读取文件创建DF二、保存文件三、DF相关API1.Action2.RDD类操作3.Excel类操作四、DF与SQL交互操作1.查询 select,selectExpr,where2.表连接 join,union,unionAll3.表分组 groupby,agg,pivot4.窗口函数、爆炸函数、复合型函数4-1.窗口函数4-2

Spark SQL

ytzhyp的博客

03-20

3508

新手入门文章

spark sql cache

最新发布

04-05

本资源提供了一套基于Scala的Apache Spark相关RDD、SQL、Streaming Demos的设计源码，包含35个文件，其中包括29个Scala源代码文件，2个Markdown文档，1个Reduced文件，1个XML配置文件，1个Java源代码文件，以及1个...

Spark RDD详解

01-07

Spark与Apache Hadoop有何关系？ Spark是与Hadoop数据兼容的快速通用处理引擎。它可以通过YARN或Spark的Standalone在Hadoop集群中运行，并且可以处理HDFS、Hbase、Cassandra、Hive和任何Hadoop InputFormat中的数据...

Spark学习笔记之Spark中的RDD的具体使用

08-25

主要介绍了Spark学习笔记之Spark中的RDD的具体使用,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Learning Spark SQL - Aurobindo Sarkar

08-30

Learning Spark SQL - Aurobindo Sarkar　a easy way to learn spark and become a big data scientist

Spark_DataFrame 去除 null, NaN 和空字符串

迎难而上

05-30

8420

去除null、NaN 去除 dataframe 中的 null 、 NaN 有方法 drop ，用 dataframe.na 找出带有 null、 NaN 的行，用 drop 删除行： df.na.drop() 去除空字符串去除空字符串用 dataframe.where ： df.where("colname <> '' ") 示例代码 package com.spark.test.offline.filter import org.apache.sp...

Spark- 由于 dynamicAllocation 导致的 executor 不断增加的坑

迎难而上

02-27

7303

参考文章：解决CDH SparkStreaming任务启动之后executor不停增长的问题,num-executors配置不管用。... https://blog.csdn.net/arli_xu/article/details/83034577 spark中 Dynamic Allocation 以及 num-executors 的问题 https://blog.csd...

Spark_Spark算子_repartitionAndSortWithinPartitions

迎难而上

09-19

6735

Spark 提供了 repartitionAndSortWithinPartitions 算子，首先我们说说这个算子的用处：给算子可以通过指定的分区器进行分组，并在分组内排序。因此，可以满足我们如下的需求：例如：例子1. 将rdd数据中相同班级的学生分到一个partition中，并根据分数降序排序例子2. 相同组合Key分组到同一分区，分区中先按照...

Spark_Spark 中Cache的作用以及具体的案例

迎难而上

06-13

6592

今天模拟实现 broadcastJoin 的时候突然意识到了这个点，对 Spark 的 Cache 做个总结。问题在Spark中有时候我们很多地方都会用到同一个RDD, 按照常规的做法的话,那么每个地方遇到Action操作的时候都会对同一个算子计算多次。这样会造成效率低下的问题 !!!! 常见 transform , action 算子 => https://blog.csdn.net/u010003835/article/details/10...

Spark_Spark中 map, mapPartition, flatMap, flatMapToPair 方法简介，区别与示例

迎难而上

05-02

6029

调研背景：本博主刚接触spark 开发，对其中的API 并不是特别的熟悉，对于以上提到的4种API 常分不清用法，故写下这篇文章作为参考。如果有别的见解，希望踊跃留言 ~~~主要的测试场景，模仿对语句中的单词进行切分~。（按照空格进行单词切分，词频统计的前一个步奏。 maven依赖：<dependency> <groupId>org.apache....

Spark_Spark中的几种Shuffle 以及工作原理，含HashShuffle

迎难而上

06-10

4714

一概述 Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂 Hadoop Shuffle 在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce；而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的性能高低。 Spark Shu...

Spark_Spark 中 checkpoint 的正确使用方式以及与 cache区别

迎难而上

06-14

4672

1.Spark性能调优：checkPoint的使用 https://blog.csdn.net/leen0304/article/details/78718346 概述 checkpoint的意思就是建立检查点，类似于快照，例如在spark计算里面，计算流程DAG特别长，服务器需要将整个DAG计算完成得出结果，但是如果在这很长的计算流程中突然中间算出的数据丢失了，spark又会根据RDD的依赖关系从头到尾计算一遍，这样子就很费性能，当然我们可以将中间的计算结果通过cache或者persi...

spark streaming，rdd，dataframe和spark sql读取数据方式及编程流程

06-08

在Spark Streaming中，RDD也是常用的数据结构之一，可以通过DStream将实时数据转换为RDD进行处理。读取实时数据的编程流程大致如下： 1. 创建Spark Streaming应用程序 2. 指定数据源，如Kafka、Flume等 3. 通过数据...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交