Spark SQL:
SparkSQL 是用来处理结构化数据的
结构化数据:SQL
ORC/Parquet/Json
SparkSQL
1.0出来的 1.3毕业的
为什么需要SQL?
对数据进行分析 方便易用 面广
但是原有的数据库无法满足现在的需求
需要云化: RDBMS ===> Hadoop生态 需要开发大量的UDF函数
BigData: storage + compute
普通的关系型数据库存储的时候只是一个文件,无法适应 HDFS
InnoDB等引擎,需要改成MapReduce/Spark
易于使用:
table(tablename + columns)
select *** from xxx where
RDD使用起来过于繁琐
SQL on Hadoop
SQL on Hadoop 的各种框架都是共用 MataStore 的
Hive创建的表,SparkSQL,Presto都是可以访问的 原因就是 他们共用MetaStore
Hive:最受欢迎的,开源(FaceBook),只是慢了点
原理:SQL ===> 底层的作业
Hive的引擎:MapReduce/Spark/Tez 可以通过开关切换
MetaStore!!! mysql中的表的关系
数据地图? 可以展示集群上的所有的数据存储量 查看业务占用了多少存储空间
根据数据地图上的功能,通过可视化的,比如说通过echarts,动态展示
而数据地图上的信息,一般是需要通过MataStore来获取的
Impala(Cloudera): 推荐的文件存储格式:parquet
需要将 textFile ===> parquet
至少需要两步:1. textFile 创建一张临时表,
2. 再通过Insert into…select xx
Impala 非常吃内存,机器一般的话需要慎重
Presto (Facebook,京东)
Drill 也是交互式的SQL查询
Schema Free
A single query can join data from multiple datastore
Phoenix:
HBASE: NoSQL
是不能用SQL进行查询的
只能使用HBASE自己的API进行操作
Hive关联HBASE操作,不建议
如果要在HBASE之上架构一层,使其能够使用SQL查询
必然要使用Phoenix
Phoenix 也是支持 Spark 的
Spark SQL概述
Spark SQL is a Spark module for structured data processing.Unlike the basic
Spark RDD API,the interfaces provided by Spark SQL provide Spark with more
information about the structure of both the data
and the computatin being performed
计算结构是指 Parquet,ORC等
Spark SQL特点:
1.可以将SQL查询和Spark程序无缝对接
SQL,DataFrame API,Java,Python,Scala
2.统一数据访问
3.可以与Hive整合 原因是: SparkSQL,Hive,Impala…共享一个MetaStore
Run SQL or HiveQL queries on existing warehouse
SparkSQL可以访问已有的数据仓库
4.标准化连接,可以使用JDBC 查询结果数据
Spark 的SQL框架:
Spark分支: Spark SQL(1.0)
Hive :Hive on Spark 慎用
DataFrame(Spark1.3):
DataSet(Spark1.6):
Spark SQL can also be used to read data from an existing Hive installation
Spark SQL 可以从已有的Hive表里读数据,集群上可以没有Hive
因为 Hive 的元数据 是在Hive外面的 , 与 SparkSQL共用一套元数据mysql,
只要有 Hive 的配置信息就可以了
RDD 功能很强大,但是RDD的代码太难写,也难读。
RDD的性能取决于写代码的人对于RDD的理解
RDD vs DataFrame vs DataSet
三者都是分布式的数据集
但是RDD 只是知道 存储的元素是什么类型的,而不知道元素内部的数据结构
DataFrame = Table 所以,DataFrame是知道内部元素具体的一些数据结构
Table 就可以使用SQL
DataFrame
a DataFrame is represented by a DataSet of Rows.
In the Scala API, DataFrame is simply a type alias of Dataset[Row].
Java Dataset
SparkSQL启动:
1. $SPARK_HOME/bin/spark-shell.sh --jars ~/lib/mysql-java-connector.jar
2. $SPARK_HOME/bin/spark-sql.sh --jars ~/lib/mysql-java-connector.jar --driver-class-path mysql-java-connector.jar
3. $SPARK_HOME/sbin/start-thriftserver --jars ~/lib/mysql-java-connector.jar
$SPARK_HOME/bin/beeline -u jdbc:hive2://localhost:10000 -n hadoop
SparkSession:
def main(args:Array[String]) :Unit = {
val spark = SparkSession.builder().master("").appName("").getOrCreate()
spark.sql("").show()
}