SparkSql

最新推荐文章于 2024-05-21 00:00:00 发布

m0_37651941

最新推荐文章于 2024-05-21 00:00:00 发布

阅读量52

点赞数 1

文章标签： spark sql

本文链接：https://blog.csdn.net/m0_37651941/article/details/120424186

版权

shark是spark生态环境的组件之一，是基于Hive所开发的工具，它修改了内存管理，物理计划，执行三个模块。并使之能够运行在spark引擎上。

shark对hive的依赖严重，比如采用Hive的语法解析器，查询优化器等。

SparkSql抛弃原有的shark的代码，汲取了shark的一些优点，如内存列存储(In-Memory Columnar Storage),Hive兼容性等，重新开发了SparkSql代码。

数据兼容性方面SparkSqk不但兼容Hive,还可以从RDD，parquet文件，JSON文件中获取数据。

性能优化方面，除了采用In-Memory Columnar Storage、byte-code generation等优化技术外，将会引进Cost Model对查询进行动态评估，获取最佳物理计划等等。

组件扩展方面，无论是sql的语法解析器，分析器还是优化区都可以重新定义，进行扩展。

两个支线：SparkSql、Hive on Spark(Hive的一个发展计划，将Spark作为Hive的底层引擎之一，也就是说Hive不再受限于一个引擎，可以采用MapReduce,Tez,Spark作为底层引擎)

DataFrame是一种以RDD为基础的分布式数据集，类似于关系型数据库的二维表。

DataFrame与RDD的主要区别在于DataFrame带有schema元信息，可以使SparkSqkl洞察到更多的结构信息，对隐藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。

DataFrame也是懒执行的，但是性能比RDD高，原因在于优化的执行计划。

DataSet是分布式数据集合。它提供了RDD的优势（强类型，使用强大的lambda函数的能力）以及Spark SQL优化执行引擎的优点。DataSet也可以使用功能性的转换（操作map，flatMap，filter等等）DataSet是Spark1.6添加的一个新抽象，是DataFrame的一个扩展。

DataSet即具有类型安全检查，也具有DataFrame的查询优化特性。

DataSet是强类型的，比如可以有DataSet[Car]、DataSet[Persion]

DataFrame是DataSet的特例，DataFrame = DataSet[Row],可以通过as方法将DataFrame转为DataSet.(Row是一个类型，所有的表结构信息都用Row来表示，获取数据需要指定顺序)

DataFrame: 弱类型(执行过程中确定类型) => SQL(面向sql) 开发快，访问慢

DataSet: 强类型(执行前确定类型) =>Object Class(面向对象)

SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合。

SparkSession内部封装了SparkContext对象，所以计算实际上是由SparkContext完成的。

SparkSession对象的创建是构建器模式。

val spark = SparkSession.builder().config(conf).getOrCreate()

创建DataFrame的三种方式：

1.通过Spark的数据源进行创建

val dataFrame = spark.read.json("data/user.json")

注：从文件中读取的数值型数据需要用BigInt接收

2.从一个已经存在的RDD进行转换

val rdd = spark.sparkContext.makeRDD(List((1,"zhangsan",30),(2,"lisi",40)))
val dataFrame = rdd.toDF("id","name","age")

3.从Hive Table进行查询返回

操作DataFrame的两种语法：SQL语法和DSL语法

用sql语法操作DataFrame必须用临时视图(只在回话内有效)或者全局视图作为辅助。使用视图而不直接使用表(Table)的原因是防止对内存中的数据做更改的同时修改原始文件中的数据。View是查询查询结果集，只能查询，不能修改。

sql语法是通过SparkSession对象调用sql()方法，DSL语法是通过DataFrame对象(df)调用相应的方法(select()、filter()、map()等)

在IDEA中开发程序时，如果需要RDD与DF或者DS之间互相操作，那么需要引入 import spark.implicits._(此处的spark是SparkSession对象名，且此对象只能用val声明)

m0_37651941

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSql

shark是spark生态环境的组件之一，是基于Hive所开发的工具，它修改了内存管理，物理计划，执行三个模块。并使之能够运行在spark引擎上。shark对hive的依赖严重，比如采用Hive的语法解析器，查询优化器等。SparkSql抛弃原有的shark的代码，汲取了shark的一些优点，如内存列存储(In-Memory Columnar Storage),Hive兼容性等，重新开发了SparkSql代码。数据兼容性方面SparkSqk不但兼容Hive,还可以从RDD，parquet文件..
复制链接

扫一扫

SparkSql

“相关推荐”对你有帮助么？