SparkSQL中 RDD，DF和DS之间的相互转换

最新推荐文章于 2022-12-17 23:34:15 发布

muyingmiao

最新推荐文章于 2022-12-17 23:34:15 发布

阅读量2.6k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/muyingmiao/article/details/102963103

版权

本文总结了SparkSQL中RDD、DataFrame和Dataset之间的转换方法。包括DataFrame和Dataset转RDD，RDD转DataFrame和Dataset，以及Dataset转DataFrame的操作，并强调在转换时导入spark.implicits._的重要性。

摘要由CSDN通过智能技术生成

类型之间的转换总结
RDD、DataFrame、Dataset 三者有许多共性，有各自适用的场景常常需要在三者之间转换
DataFrame/Dataset 转RDD：
这个转换很简单

val rdd1=testDF.rdd
val rdd2=testDS.rdd

RDD 转DataFrame：

import spark.implicits._
val testDF = rdd.map {line=>
(line._1,line._2)
}.toDF("col1","col2")

一般用元组把一行的数据写在一起，然后在toDF 中指定字段名
RDD 转Dataset：

import spark.implicits._
case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
val testDS = rdd.map {line=>
Coltest(line._1,line._2)
}.toDS

可以注意到，定义每一行的类型（case class）时，已经给出了字段名和类型，后面只要往case class 里面添加值即可
Dataset 转DataFrame：
这个也很简单，因为只是把case class 封装成Row

import spark.implicits._
val testDF = te

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

muyingmiao

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据Spark（二十五）：SparkSQL的RDD、DF、DS相关操作

Lansonli（蓝深李）的博客

04-16

1496

SparkSession支持从不同的数据源加载数据，并把数据转换成DataFrame，并且支持把DataFrame转换成SQLContext自身中的表，然后使用SQL语句来操作数据。实际项目开发中，往往需要将RDD数据集转换为DataFrame，本质上就是给RDD加上Schema信息，官方提供两种方式：类型推断和自定义Schema。使用SparkSession加载数据源数据，将其封装到DataFrame或Dataset中，直接使用。，构建Schema，应用到RDD数据集，将其转换为DataFrame。

Spark SQL（RDD、DataFrame 、DataSet 相互转换）

Joker_Jiang3的博客

07-06

894

Spark SQL（RDD、DataFrame 、DataSet 相互转换）一、Spark SQL数据抽象 SparkCore的数据抽象：RDD SparkStreaming的数据抽象：DStream，底层是RDD SparkSQL的数据抽象：DataFrame和DataSet，底层是RDD 1、DataFrame DataFrame = RDD - 泛型 + Schema约束（指定字段名和类型）+ SQL操作 + 优化 DataFrame 就是在RDD的基础之上做了进一步的封装，支持 SQL操作 Da

参与评论您还未登录，请先登录后发表或查看评论

SparkSQL中的RDD，DF和DS的转换

zyc2913的博客

10-12

990

package com.zyc.sparksql import java.text.SimpleDateFormat import java.util.Locale import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} /** * Created with IntelliJ IDEA. * Author: zyc2913@163.com * Date: 2020/10/10 13:55

Spark RDD、DF、DS互转

Rudolf_liu的博客

06-09

567

DataFrame/Dataset 转RDD val rdd1=df.rdd val rdd2=ds.rdd RDD 转DataFrame import spark.implicits._ val df = rdd.map {line=> (line._1,line._2) }.toDF("col1","col2") 一般用元组把一行的数据写在一起，然后在toDF 中指定字段名一定要加上import spark.implicits._ 不然toDF、toDS 无法使用 RDD 转Dataset

spark-RDD、DS、DF相互转换

DCHAO的博客

08-29

3660

RDD 和 DataFrame之间的转换准备测试RDD数据 scala> val rdd=sc.makeRDD(List("Mina,19","Andy,30","Michael,29")) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[10] at makeRDD at <console>:24 需要注意，只有import spark.implicits._之后，RDD才有toDF、toDS功能 scala

spark 之RDD,DF,DS

weixin_34206899的博客

12-17

253

2019独角兽企业重金招聘Python工程师标准>>> ...

SparkSQL-02 RDD转换DF的两种方式

qq_15300683的博客

05-29

5478

引用原文：Interoperating with RDDsSpark SQL supports two different methods for converting existing RDDs into Datasets.The first method uses reflection to infer the schema of an RDD that contains specific t...

【spark】spark SQL概述 RDD、DataFrame及DataSet开发相互转换以及sparksql和mysql数据转换

废物点心的博客

04-29

774

文章目录一、sparksql概述二、sparksql四大特性三、DataFrame简介DataFrame与RDD的区别DataFrame与RDD的优缺点读取数据源创建DataFrame读取json文件创建DataFrame四、DataFrame常用操作DSL风格语法SQL风格语法六、DataSetDataFrame、DataSet、RDD的区别DataFrame与DataSet互相转换创建Data...

SparkSQL-DataFrams和RDD的相互转换

上海一九四三

08-17

799

Spark SQL支持两种RDDs转换为DataFrames的方式：使用反射获取RDD内的Schema 当已知类的Schema的时候，使用这种基于反射的方法会让代码更加简洁而且效果也很好。通过编程接口指定Schema 通过Spark SQL的接口创建RDD的Schema，这种方式会让代码比较冗长。这种方法的好处是，在运行时才知道数据的列以及列的类型的情况下，可以动态生成Sch...

SparkSQL、DSL、sparkSQL与rdd相互转换

weixin_52923290的博客

05-28

1071

一、导入环境依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <depe

SparkSQL（4）：Dataframe和RDD相互转换

小蚯蚓的博客

10-31

3624

1.功能：实现Dataframe和RDD相互转换 2.Dataframe转换RDD val jsonRdd=jsonDataFrame.rdd 3.RDD转换Dataframe （1）通过类的反射机制 port sqlContext.implicits._ val df=rdd.toDF() （2）明确给定字段名称和schema信息 val schema=StructTy...

SparkSQL 如何把sqlText转化成RDD可以执行的tasks 系列

不积跬步无以至千里

05-18

1034

上图是一个通用的SparkSQL底层执行流程图. 具体流程如下描述(上图是一个lazy函数, 遇到active函数才会执行): 一、SparkSQL通过parser(解析器), 把sqlText转化成UnResolved Logical Plan.(这是一棵parsed Logical Plan AST语法树). 二、SparkSQL通过Analyer(分析器), 借助Catalog中的元数据(schema), 把UnResolved Logical Plan转化成Res

Spark中RDD与DF与DS之间的转换关系

Mr.Zheng的博客

05-18

2933

前言 RDD的算子虽然丰富，但是执行效率不如DS，DF，一般业务可以用DF或者DS就能轻松完成，但是有时候业务只能通过RDD的算子来完成，下面就简单介绍之间的转换。三者间的速度比较测试！这里的DS区别于sparkstream里的DStream！！转换关系 RDD的出现早于DS,DF。由于scala的扩展机制，必定是要用到隐式转换的！所以在RDD下要转DF或者DS，就应该导隐式对象包！ val conf = new SparkConf().setMaster("local[*]").setAppNa

Spark中RDD转换为DataFrame的方法总结

jp_666的博客

11-16

863

直接贴出代码吧。 import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.{DataFrame, Row, SQLContext, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} import org.apache.spark.{SparkConf, SparkCon

Spark SQL执行计划到RDD全流程记录