SparkSQL基础知识总结

一.SparkSQL架构

1.架构

2.解释


一个sql 过来 解析成unresolved,只拿出来字段名和表名
但是不知道字段名和表名在哪个位置
需要通过Schema 确定表的位置等信息,
生成逻辑执行计划,Logical,知道数据从哪里来了
通过一些列优化过滤生成物理执行计划Physical
最后把物理执行计划放到spark集群上运行

3.样例

二.SparkSQL的几点误区


Spark SQL就是写SQL,这是错误的观点
Spark SQL不是SQL,超出SQL,因为SQL是其一部分
Spark SQL 是处理结构化数据的,只是Spark中的一个模块
Spark SQL 与 Hive on Spark  不是一个东西
Spark SQL 是spark里面的
Hive on Spark 的功能是比Spark SQL多的
Hive on Spark 稳定性不是很好

三.SQL的几个几点注意

1.SQL注意


关系数据库集群成本很高,还是有限的
SQL : schema + file
使用sql的前提就是有schema ,作用到文件上去
hive是进程的
hive2.0 默认引擎是Tez
Hive on Spark 就是把hive执行引擎改成spark

2.执行引擎


mr
spark
Tez

3.SparkSQL的JOIN


spark sql 可以跨数据源进行join,例如hdfs与mysql里表内容join
Spark SQL运行可以不用hive,只要你连接到hive的metastore就可以

3.hive底层的hiveserver2协议走的是thrift


hiveserver2开启可以用JDBC或者ODBC直接连接

四.连接Hive的几种方式

1.三种方式


spark-sql 与 spark-shell  ,thriftserver
thriftserver对应hive里面的hiveserver2

2.thriftserver连接方式


./beeline -u jdbc:hive2://localhost:10000 -n root

3.thriftserver和spark-sql,spark-shell 的区别在哪?


spark-shell、spark-sql 都是是一个独立的 spark application,
启动几个就要几个application,非常耗资源
用thriftserver,无论启动多少个客户端(beeline)连接在一个thriftserver,
是一个独立的spark application,
后面不用在重新申请资源。前一个beeline缓存的,下一个beeline也可以用
用thriftserver,可在ui看执行计划,优化有优势

4.注意情况


这个要起来,要不spark-shell, spark-sql,连接不上,这个跟hive一样

5.可能出错


spark-shell --master local[2] --jars /soft/hive/lib/mysql-connector-java-8.0.12.jar 这样启动不起来
你可以试试把mysql-connector-java-8.0.12.jar 放到spark的jars里

6.解决

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69941978/viewspace-2652110/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/69941978/viewspace-2652110/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值