Spark SQL的愿景

最新推荐文章于 2024-08-16 21:30:01 发布

iamxiaofeifei

最新推荐文章于 2024-08-16 21:30:01 发布

阅读量413

点赞数

分类专栏： Hadoop & Spark 文章标签： spark sql 大数据 SparkSQL

本文链接：https://blog.csdn.net/iamxiaofeifei/article/details/77258552

版权

Hadoop & Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Spark SQL的愿景

主要有以下三点：
- Write less code
- Read less data
- Let the optimizer do the hard work

二、Write less code

Unified interface to reading/writing data in a variety of formats
对不同的数据类型使用统一的接口来读写
ETL using custom data source
Common operations can be expressed concisely as calls to the DataFrame API.
- Selecting required columns
- Joining different data sources
- Aggregationg(count, sum, average,etc)
- filtering
  常用的数据操作可以使用DataFrame的API非常简洁的完成。
Schema inference （Schema推导）
比如半结构化的数据，如json可以自动推导字段
Schema merging
比如int 类型字段和double类型字段合并，可以自动兼容的使用double类型。
Partition Discovery（自动的分区探测）

三、Read less data

Converting to more efficient formats, Using columnar formats(i.e. parquet)
Using partitioning
Skipping data using statistics
Pushing predicates into storage systems(i.e. JDBC)

提升大数据处理速度最有效的方法就是忽略无关的数据。

1.使用列式存储（columnar formats），比如Parquet、ORC、RCFile
2.使用分区裁剪（partitioning pruning），比如按天分区，按小时分区等
3.利用数据文件中附带的统计信息进行剪枝：例如每段数据都带有最大值、最小值和NULL值等统计信息，当某一数据段肯定不包含查询条件的目标数据时，可以直接跳过这段数据。（例如字段age某段最大值为20，但查询条件是>50岁的人时，显然可以直接跳过这段）
4.将查询源中的各种信息下推至数据源处，从而充分利用数据源自身的优化能力来完成剪枝、过滤条件下推等优化。

什么是列式存储？列式存储相比于行式存储的优缺点？– 博文待写

四、Let the optimizer do the hard work

这里写图片描述

Catalyst优化器对SQL语句进行优化，从而得到更有效的执行方案。即使我们在写SQL的时候没有考虑这些优化的细节，Catalyst也可以帮我们做到不错的优化结果。

iamxiaofeifei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL的愿景

一、Spark SQL的愿景主要有以下三点： - Write less code - Read less data - Let the optimizer do the hard work二、Write less codeUnified interface to reading/writing data in a variety of formats 对不同的数据类型使用统一的接口来
复制链接

扫一扫

专栏目录