数据引擎- 主流SQL计算引擎

最新推荐文章于 2024-07-01 16:05:40 发布

A傅劲

最新推荐文章于 2024-07-01 16:05:40 发布

阅读量2.3k

点赞数

分类专栏：数据引擎文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/afujin/article/details/49754639

版权

数据引擎专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.先了解一下SQL的执行过程

词法分析就是将SQL语句分解成一个个词和符号，语法分析就是识别SQL关键字和SQL成分结构，逻辑执行计划就是分析获取数据的逻辑步骤，优化执行计划就是优化和简化获取数据的步骤，物理执行计划就是分解可执行的任务，计划执行就是按照步骤执行分解后的任务获取数据结果。

2.了解一下数据引擎的工作流程

用户通过用户界面提交SQL查询，驱动接收到SQL查询请求后，向编译器请求SQL查询的执行计划，在获取到物理执行计划后，将物理查询计划提交给执行引擎。在Hive中物理执行计划是一系列的Map任务和Reduce任务，任务依次执行完成后将获取的HDFS中的数据，返回给用户。

3.现在主流的数据引擎的结构

HDFS提供了分布式文件系统，RDD提供了分布式的内存系统，这两个了个基本的数据访问抽象，极大了简化了计算编程模型。特别提一下Catalyst中基于规则的优化引擎，借助Scala的模式匹配等函数式语言特性，开发执行计划优化策略非常的简洁。

4.数据引擎的起源

最初的MapReduce使得处理大数据处理成为可能。后来又发现了MR的抽象过于简单，于是Tez和Spark提供了更加丰富单是也更复杂的分布式任务模型。但是SQL的处理依然不方便，效率不好，于是Pig和Hive出现了，让更多了数据分析和处理人员可以处理大数据任务。但是基于任务的SQL处理模式很难满足交互数据分析的场景，于是更轻量的，更专注SQL任务优化的Impala，Presto，Drill出现了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据引擎- 主流SQL计算引擎

主流SQL计算引擎
复制链接

扫一扫

专栏目录

博客等级

码龄16年

32
原创

12
点赞

52
收藏

28
粉丝

关注

私信

热门文章

分类专栏

数据引擎 7篇
数据 1篇
数据挖掘 2篇
数据分析 11篇
闲谈 8篇
数据案例 1篇
编程 1篇

最新评论

说说为什么阿里要破冰？
嘿哟嘿哟拔萝卜儿: 你看下发表日期。。。
说说为什么阿里要破冰？
yindarui: 怎么找不到举报呀？这种洗白文居然也能发出来？
可视化分析工具Qlik进阶
Hey_QinQinIsMe: 您好，请问自动下载功能是怎么实现的啊？有详细一些说明吗？您的截图都显示不出来了。
说说为什么阿里要破冰？
linshi0599: 把性骚扰说的这么大义凛然，我就问一句，难道除了这种会让人反感的办法之外，就没有别的办法可以达到目的了吗？既然有别的办法，为什么要使用这种让人反感的办法？所以我才说，恬不知耻！！！
说说为什么阿里要破冰？
linshi0599: 我头一次发现，还能有人把性骚扰这么恶心的事情说的这么大义凛然。。。恬不知耻

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。