Spark SQL

Spark SQL:
SparkSQL 是用来处理结构化数据的
结构化数据:SQL
ORC/Parquet/Json
SparkSQL
1.0出来的 1.3毕业的

为什么需要SQL?
对数据进行分析 方便易用 面广
但是原有的数据库无法满足现在的需求
需要云化: RDBMS ===> Hadoop生态 需要开发大量的UDF函数

BigData: storage + compute
普通的关系型数据库存储的时候只是一个文件,无法适应 HDFS
InnoDB等引擎,需要改成MapReduce/Spark

易于使用:
table(tablename + columns)
select *** from xxx where
RDD使用起来过于繁琐
SQL on Hadoop

SQL on Hadoop 的各种框架都是共用 MataStore 的
Hive创建的表,SparkSQL,Presto都是可以访问的 原因就是 他们共用MetaStore

Hive:最受欢迎的,开源(FaceBook),只是慢了点
原理:SQL ===> 底层的作业
Hive的引擎:MapReduce/Spark/Tez 可以通过开关切换
MetaStore!!! mysql中的表的关系

数据地图? 可以展示集群上的所有的数据存储量 查看业务占用了多少存储空间
根据数据地图上的功能,通过可视化的,比如说通过echarts,动态展示
而数据地图上的信息,一般是需要通过MataStore来获取的

Impala(Cloudera): 推荐的文件存储格式:parquet
需要将 textFile ===> parquet
至少需要两步:1. textFile 创建一张临时表,
2. 再通过Insert into…select xx
Impala 非常吃内存,机器一般的话需要慎重

Presto (Facebook,京东)

Drill 也是交互式的SQL查询
Schema Free
A single query can join data from multiple datastore

Phoenix:
HBASE: NoSQL
是不能用SQL进行查询的
只能使用HBASE自己的API进行操作
Hive关联HBASE操作,不建议

如果要在HBASE之上架构一层,使其能够使用SQL查询
必然要使用Phoenix

Phoenix 也是支持 Spark 的

Spark SQL概述
Spark SQL is a Spark module for structured data processing.Unlike the basic
Spark RDD API,the interfaces provided by Spark SQL provide Spark with more
information about the structure of both the data
and the computatin being performed
计算结构是指 Parquet,ORC等

Spark SQL特点:
1.可以将SQL查询和Spark程序无缝对接
SQL,DataFrame API,Java,Python,Scala
2.统一数据访问
3.可以与Hive整合 原因是: SparkSQL,Hive,Impala…共享一个MetaStore
Run SQL or HiveQL queries on existing warehouse
SparkSQL可以访问已有的数据仓库
4.标准化连接,可以使用JDBC 查询结果数据

Spark 的SQL框架:
Spark分支: Spark SQL(1.0)
Hive :Hive on Spark 慎用

DataFrame(Spark1.3):
DataSet(Spark1.6):

Spark SQL can also be used to read data from an existing Hive installation
Spark SQL 可以从已有的Hive表里读数据,集群上可以没有Hive
因为 Hive 的元数据 是在Hive外面的 , 与 SparkSQL共用一套元数据mysql,
只要有 Hive 的配置信息就可以了

RDD 功能很强大,但是RDD的代码太难写,也难读。
RDD的性能取决于写代码的人对于RDD的理解

RDD vs DataFrame vs DataSet
三者都是分布式的数据集
但是RDD 只是知道 存储的元素是什么类型的,而不知道元素内部的数据结构
DataFrame = Table 所以,DataFrame是知道内部元素具体的一些数据结构
Table 就可以使用SQL
DataFrame
a DataFrame is represented by a DataSet of Rows.
In the Scala API, DataFrame is simply a type alias of Dataset[Row].
Java Dataset

SparkSQL启动:
1. $SPARK_HOME/bin/spark-shell.sh --jars ~/lib/mysql-java-connector.jar
2. $SPARK_HOME/bin/spark-sql.sh --jars ~/lib/mysql-java-connector.jar --driver-class-path mysql-java-connector.jar
3. $SPARK_HOME/sbin/start-thriftserver --jars ~/lib/mysql-java-connector.jar
$SPARK_HOME/bin/beeline -u jdbc:hive2://localhost:10000 -n hadoop

SparkSession:
def main(args:Array[String]) :Unit = {
val spark = SparkSession.builder().master("").appName("").getOrCreate()
spark.sql("").show()
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值