Spark SQL

最新推荐文章于 2023-11-29 21:22:52 发布

Gru杨

最新推荐文章于 2023-11-29 21:22:52 发布

阅读量158

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_43517453/article/details/93879097

版权

Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Spark SQL：
SparkSQL 是用来处理结构化数据的
结构化数据：SQL
ORC/Parquet/Json
SparkSQL
1.0出来的 1.3毕业的

为什么需要SQL?
对数据进行分析方便易用面广
但是原有的数据库无法满足现在的需求
需要云化： RDBMS ===> Hadoop生态需要开发大量的UDF函数

BigData： storage + compute
普通的关系型数据库存储的时候只是一个文件，无法适应 HDFS
InnoDB等引擎，需要改成MapReduce/Spark

易于使用：
table(tablename + columns)
select *** from xxx where
RDD使用起来过于繁琐
SQL on Hadoop

SQL on Hadoop 的各种框架都是共用 MataStore 的
Hive创建的表，SparkSQL，Presto都是可以访问的原因就是他们共用MetaStore

Hive：最受欢迎的，开源(FaceBook)，只是慢了点
原理：SQL ===> 底层的作业
Hive的引擎：MapReduce/Spark/Tez 可以通过开关切换
MetaStore！！！ mysql中的表的关系

数据地图？可以展示集群上的所有的数据存储量查看业务占用了多少存储空间
根据数据地图上的功能，通过可视化的，比如说通过echarts，动态展示
而数据地图上的信息，一般是需要通过MataStore来获取的

Impala(Cloudera): 推荐的文件存储格式：parquet
需要将 textFile ===> parquet
至少需要两步：1. textFile 创建一张临时表，
2. 再通过Insert into…select xx
Impala 非常吃内存，机器一般的话需要慎重

Presto (Facebook,京东)

Drill 也是交互式的SQL查询
Schema Free
A single query can join data from multiple datastore

Phoenix:
HBASE: NoSQL
是不能用SQL进行查询的
只能使用HBASE自己的API进行操作
Hive关联HBASE操作，不建议

如果要在HBASE之上架构一层，使其能够使用SQL查询
必然要使用Phoenix

Phoenix 也是支持 Spark 的

Spark SQL概述
Spark SQL is a Spark module for structured data processing.Unlike the basic
Spark RDD API,the interfaces provided by Spark SQL provide Spark with more
information about the structure of both the data
and the computatin being performed
计算结构是指 Parquet,ORC等

Spark SQL特点：
1.可以将SQL查询和Spark程序无缝对接
SQL,DataFrame API,Java,Python,Scala
2.统一数据访问
3.可以与Hive整合原因是： SparkSQL，Hive，Impala…共享一个MetaStore
Run SQL or HiveQL queries on existing warehouse
SparkSQL可以访问已有的数据仓库
4.标准化连接，可以使用JDBC 查询结果数据

Spark 的SQL框架：
Spark分支： Spark SQL(1.0)
Hive ：Hive on Spark 慎用

DataFrame(Spark1.3):
DataSet(Spark1.6):

Spark SQL can also be used to read data from an existing Hive installation
Spark SQL 可以从已有的Hive表里读数据，集群上可以没有Hive
因为 Hive 的元数据是在Hive外面的，与 SparkSQL共用一套元数据mysql，
只要有 Hive 的配置信息就可以了

RDD 功能很强大，但是RDD的代码太难写，也难读。
RDD的性能取决于写代码的人对于RDD的理解

RDD vs DataFrame vs DataSet
三者都是分布式的数据集
但是RDD 只是知道存储的元素是什么类型的，而不知道元素内部的数据结构
DataFrame = Table 所以，DataFrame是知道内部元素具体的一些数据结构
Table 就可以使用SQL
DataFrame
a DataFrame is represented by a DataSet of Rows.
In the Scala API, DataFrame is simply a type alias of Dataset[Row].
Java Dataset

SparkSQL启动：
1. $SPARK_HOME/bin/spark-shell.sh --jars ~/lib/mysql-java-connector.jar
2. $SPARK_HOME/bin/spark-sql.sh --jars ~/lib/mysql-java-connector.jar --driver-class-path mysql-java-connector.jar
3. $SPARK_HOME/sbin/start-thriftserver --jars ~/lib/mysql-java-connector.jar
$SPARK_HOME/bin/beeline -u jdbc:hive2://localhost:10000 -n hadoop

SparkSession:
def main(args:Array[String]) :Unit = {
val spark = SparkSession.builder().master("").appName("").getOrCreate()
spark.sql("").show()
}

Gru杨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL

Spark SQL：SparkSQL 是用来处理结构化数据的结构化数据：SQLORC/Parquet/JsonSparkSQL1.0出来的 1.3毕业的为什么需要SQL?对数据进行分析方便易用面广但是原有的数据库无法满足现在的需求需要云化： RDBMS ===> Hadoop生态需要开发大量的UDF函数BigData： storage + compute普通的...
复制链接

扫一扫