Spark(四) Spark SQL

最新推荐文章于 2024-03-27 07:39:52 发布

Zhen大虾

最新推荐文章于 2024-03-27 07:39:52 发布

阅读量122

点赞数

分类专栏： Spark

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

面向关系型数据库的查询和存储

Spark SQL的抽象数据类型是DataFrame，是带有Schema信息的RDD。支持的语言有Java Scala Python

Spark SQL可以对结构化数据、半结构化数据和非结构化数据进行处理

对于关系型数据库存储的结构化数据而言，主要做的是综合性查询分析，如汇总、求和等 count(*),average,sum

Spark SQL的DataFrame打通了关系数据查询和机器学习等复杂分析算法的通道

一. DataFrame

1.Spark是对RDD进行操作，SparkSQL是对DataFrame进行操作，两者的数据抽象截然不同
2.使用SparkSession来创建DataFrame，先构建SparkSession对象
import org.apache.spark.sql.SparkSession
import spark.implicits._  #进行隐式转换的包
val spark=SparkSession.builder().getOrCreate()
在spark shell里可以不用建sparkSession,里边自带的spark就是sparkSession
spark.read.csv()
spark.read.json()

df.show()
df.write.json(全称路径)
df.write.csv()
df.write.parquet()

二从RDD转换得到DataFrame

Zhen大虾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark(四) Spark SQL

面向关系型数据库的查询和存储Spark SQL的抽象数据类型是DataFrame，是带有Schema信息的RDD。支持的语言有Java Scala PythonSpark SQL可以对结构化数据、半结构化数据和非结构化数据进行处理对于关系型数据库存储的结构化数据而言，主要做的是综合性查询分析，如汇总、求和等 count(*),average,sumSpark SQL的DataFrame打通了关系数据查询和机器学习等复杂分析算法的通道一. DataFrame1.Spark是对RDD进
复制链接

扫一扫

专栏目录