SparkSQL初识

一、 Spark SQL介绍


blob.png

        

        Spark SQL是Apache Spark's的一个 模块 ,用来处理 结构化数据 ,1.0后产生;SQL语句主要体现在关系型数据库上,大数据中基于Hadoop的SQL有Hive(SQL on Hadoop)但是MapReduce计算过程中大量的磁盘落地过程消耗了大量I/O,降低运行效率,简单说就是稳定性高,计算慢,离线批处理的框架,因此其他的SQL on Hadoop工具产生。

        SQL on Hadoop

        •  Hive        -- 把HQL语句转换MapReduce作业 提交到Yarn执行(元数据重要性)

        •  Impala    -- 开源的交互式SQL查询引擎,基于内存处理

        •  Presto    -- 分布式SQL查询引擎

        •  Shark     -- SQL语句翻译Spark作业,Hive跑在Spark之上,依赖Hive与Hive兼容性差

        •  Drill        -- 查询引擎包括SQL/FILE/HDFS/ S3

        • Phoenix  -- 基于Hbase上的SQL引擎


        Hive on SQL是社区发展另外一个路线,属于Hive发展计划,把Spark作为Hive的执行引擎;之前我们说的HIve作业跑在Hadoop的MapReduce上的;现在Hive不受限于一个引擎,可以采用MapReduce、Tez、Spark等引擎。


、 Spark SQL特性


        • 集成性-SQL查询与应用程序对接

        • 统一的数据访问-连接各种数据源( Hive, Avro, Parquet, ORC, JSON, and JDBC

        • 与Hive的集成性,不需要Hive,使用Hive存在Metastores即可或者使用Hive-site文件

        • 通过JDBC和ODBC连接,start-thriftserver底层走的也是Thrift协议(Hive_server2底层基于Thrift协议,)

        • Spark SQL不仅仅是SQL,远超出SQL


、 Spark SQL优势


       A :内存列存储( In-Memory Columnar Storage )

     Spark SQL的表数据在内存中的存储采用是内存列式存储,而不是原生态JVM对象存储方式。

      121050238017312.gif


      Spark SQL列式存储将数据类型相同列采用原生数组来存储,将Hive支持的复杂数据类型(如array、map等)先序化后并接成一个字节数组来存储。这样,每个列创建一个JVM对象,从而导致可以快速的GC和紧凑的数据存储;额外的,还可以使用低廉CPU开销的高效压缩方法(如字典编码、行长度编码等压缩方法)降低内存开销;更有趣的是,对于分析查询中频繁使用的聚合特定列,性能会得到很大的提高,原因就是这些列的数据放在一起,更容易读入内存进行计算



    B :字节码生成技术( bytecode generation ,即 CG )


        数据库查询中有一个昂贵的操作是查询语句中的表达式,主要是由于JVM的内存模型引起的。比如如下一个查询:

中有一个昂在这个查询里,如果采用通用的SQL语法途径去处理,会先生成一个表达式树。

select a+b from table


121050327549776.gif

在物理处理这个表达式树的时候, 将会如图所示的7个步骤

    1.  调用虚函数Add.eval(),需要确认Add两边的数据类型

    2.  调用虚函数a.eval(),需要确认a的数据类型

    3.  确定a的数据类型是Int,装箱

    4.  调用虚函数b.eval(),需要确认b的数据类型

    5.  确定b的数据类型是Int,装箱

    6.  调用Int类型的Add

    7.  返回装箱后的计算结果


  C : Scala 代码优化

   ...............


、 Spark SQL运行架构

blob.png

          Catalyst就SparkSQL核心部分,性能的优劣影响整体的性能,由于发展时间短,虚线部分是以后版本要实现功能,实现部分是已经实现功能。
        Unresolved Logical Plan:未解析的逻辑执行计划

        Schema Catalog:元数据管理套用Unresolved Logical Plan生成Logical Plan

        Logical Plan:生成逻辑执行计划

        Optimized Logical Plan:对生生成的Logical Plan进行优化,生成物理逻计划
        Physical Plans:物理逻辑计划,可能是多个,根据Cost Model生成最佳的物理逻辑化



来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31441024/viewspace-2213252/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31441024/viewspace-2213252/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值