慕课网Spark SQL日志分析 - 3.Spark SQL概述

最新推荐文章于 2019-04-15 22:52:27 发布

weixin_34124577

最新推荐文章于 2019-04-15 22:52:27 发布

阅读量228

点赞数

文章标签：大数据 json 数据库

原文链接：https://juejin.im/post/5c3af7ca6fb9a049f43b8c8f

版权

3.Spark SQL概述

Hive 类似于sql的hive sql语句，sql==>mapreduce 缺点：基于mapreduce，执行效率比较低改进：hive on tez，hive on spark，hive on mapreduce
Shark hive on spark ==> shark（把hive解析后的作业翻译成spark作业）优点：1.基于spark；2.基于内存的列式存储；3.与hive能够兼容缺点：hive ql 的解析、逻辑执行计划生成、执行计划的优化是依赖于hive的。仅仅只是把物理执行计划从mr作业替换成spark；mapreduce基于进程级别的，而spark是基于线程的，shark必须单独维护一个分支来处理线程相关的操作。

Shark终止后，产生了两个分支：

Hive sql ==> mapreduce metasotre: 原数据 sql: database, table, view
impla cloudera : cdh（建议大家在生产上使用的hadoop系列版本）、cm sql : 自己的守护进程执行的，非mr （对内存要求比较高）
presto facebook，京东支持sql
drill 支持sql 能够访问：hdfs、rdbms、json、hbase、mongdb、c3、hive ==> 外部数据源
Spark SQL 支持sql dataframe/dataset api metastore 能够访问：hdfs、rdbms、json、hbase、mongdb、c3、hive ==> 外部数据源