大数据——Spark SQL

最新推荐文章于 2024-08-16 20:58:31 发布

AIGC人工智残

最新推荐文章于 2024-08-16 20:58:31 发布

阅读量1k

点赞数 1

分类专栏：大数据文章标签：大数据 spark sql

本文链接：https://blog.csdn.net/gjinc/article/details/132567067

版权

1、Spark SQL是什么

Spark SQL是Spark中用于处理结构化数据的一个模块，前身是Shark，但本身继承了前身Hive兼容和内存列存储的一些优点。Spark SQL具有以下四个特点：

综合性(Integrated)：Spark中可以加入SQL查询，也可以使用DataFrame API，其中API提供了多种语言选择，Python、R、Java和Scala都支持。
连接统一性(Uniform Data Access)：使用相同的方式连接不同的数据源(Hive、Json和JDBC等等)。
Hive兼容性：能够在已有数据仓库中执行SQL或者Hive查询
标准化连接(Standard Connectivity)：提供了JDBC或者ODBC的数据接口，可以给其他BI工具使用。

Spark SQL的优点

代码量少：可以直接写SQL语句或者DataFrame 。
性能更高：在使用DataFrame API时，DataFrame转成RDD时，会进行代码优化，执行效率更高；Spark SQL代码的RDD还行效率比Python、Java等编写的RDD效率高。

2、DataFrame简介

Spark中DataFrame是⼀个分布式的⾏集合，可以想象为⼀个关系型数据库的表，或者⼀个带有列名的Excel表格。不过它跟RDD有以下共同之处：

不可变(Immuatable)：跟RDD一样，一旦创建就不能更改你，只能通过transformation生成新的DataFrame；
懒加载(Lazy Evaluations)：只有action才会让transformation执行；
分布式(Distributed)：也是分布式的。

DataFrame跟RDD的比较

	DataFrame	RDD
逻辑框架	提供详细结构信息，例如列的名称和类型	不知道类的内部结构
数据操作	API更丰富、效率更高	代码少时，速度更快

DataFrame API常用代码

DataFrame的API也分为transformation和action两类

transformation 延迟操作
action 立即操作

在这里插入图片描述

创建SparkSession对象

SparkSession.builder.master("local") \
... appName("Word Count") \
... getOrCreate()
# Builder 是 SparkSession 的构造器。 通过 Builder, 可以添加各种配置
# master (master)设置要链接到的spark master节点地址, 传⼊ “local” 代表本地模式, “local[4]”代表本地模式4内核运⾏
# appName (name)为Spark应⽤设置名字
# getOrCreate ()获取⼀个已经存在的 SparkSession 或者如果没有已经存在的, 创建⼀个新的SparkSession

通过SparkSession创建DataFrame

 sparkSession.createDataFrame

读取文件生成DataFrame

# json格式
spark.read.json("xxx.json")
spark.read.format('json').load('xxx.json')
# parquet格式
spark.read.parquet("xxx.parquet")
# jdbc格式
spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/db_name")\
.option("dbtable","table_name").option("user","xxx").option("password","xxx").load()

基于RDD创建DataFrame

# rdd中读取数据
    spark = SparkSession.builder.master('local').appName('Test'

最低0.47元/天解锁文章

AIGC人工智残

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录