Spark SQL 源码分析之 In-Memory Columnar Storage 之 in-memory query

最新推荐文章于 2020-11-26 04:26:48 发布

OopsOutOfMemory

最新推荐文章于 2020-11-26 04:26:48 发布

阅读量6.6k

点赞数

分类专栏： spark Spark SQL源码分析系列文章标签： spark sql catalyst storage in-memory

本文链接：https://blog.csdn.net/oopsoom/article/details/39577419

版权

本文深入探讨Spark SQL在内存中查询columnar存储数据的机制。当数据被缓存到内存后，通过InMemoryColumnarTableScan节点执行查询。ColumnAccessor针对不同数据类型提供解析功能，从bytebuffer中提取并转化为Row对象。查询过程简单高效，与存储的数据结构紧密相关。

摘要由CSDN通过智能技术生成

/** Spark SQL源码分析系列文章*/

前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。

那么基于以上存储结构，我们查询cache在jvm内的数据又是如何查询的，本文将揭示查询In-Memory Data的方式。

一、引子

本例使用hive console里查询cache后的src表。

select value from src

当我们将src表cache到了内存后，再次查询src，可以通过analyzed执行计划来观察内部调用。

即parse后，会形成InMemoryRelation结点，最后执行物理计划时，会调用InMemoryColumnarTableScan这个结点的方法。

如下：

scala> val exe = executePlan(sql("select value from src").queryExecution.analyzed)
14/09/26 10:30:26 INFO parse.ParseDriver: Parsing command: select value from src
14/09/26 10:30:26 INFO parse.ParseDriver: Parse Completed
exe: org.apache.spark.sql.hive.test.TestHive.QueryExecution = 
== Parsed Logical Plan ==
Project [value#5]
 InMemoryRelation [key#4,value#5], false, 1000, (HiveTableScan [key#4,value#5], (MetastoreRelation default, src, None), None)

== Analyzed Logical Plan ==
Project [value#5]
 InMemoryRelation [key#4,value#5], false, 1000, (HiveTableScan [key#4,value#5], (MetastoreRelation default, src, None), None)

== Optimized Logical Plan ==
Project [value#5]
 InMemoryRelation [key#4,value#5], false, 1000, (HiveTableScan [key#4,value#5], (MetastoreRelation default, src, None), None)

== Physical Plan