SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

最新推荐文章于 2024-02-08 20:02:07 发布

djph26741

最新推荐文章于 2024-02-08 20:02:07 发布

阅读量645

点赞数

文章标签：数据库 php python

原文链接：http://www.cnblogs.com/bonelee/p/6625434.html

版权

转自infoQ！

根据 O’Reilly 2016年数据科学薪资调查显示，SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作，甚至有一些只需要SQL。

本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL，IBM 尚未将后者更名为“Watson SQL”。

（有读者问：Druid 呢？我的回答是：检查后，我同意Druid 属于这一类别。）

使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎，它的框架使用MapReduce、TeZ 或者Spark 引擎去执行查询，而且它并不运行SQL，而是HiveQL，一种类似SQL 的语言，非常接近SQL。“SQL-in-Hadoop” 也不适用，虽然Hive 和Impala 主要使用Hadoop，但是Spark、Drill、HAWQ 和Presto 还可以和各种其他的数据存储系统配合使用。

不像关系型数据库，SQL 引擎独立于数据存储系统。相对而言，关系型数据库将查询引擎和存储绑定到一个单独的紧耦合系统中，这允许某些类型的优化。另一方面，拆分它们，提供了更大的灵活性，尽管存在潜在的性能损失。

下面的图1展示了主要的SQL 引擎的流行程度，数据由奥地利咨询公司Solid IT 维护的DB-Engines提供。DB-Engines 每月为超过200个数据库系统计算流行得分。得分反应了搜索引擎的查询，在线讨论的提及，提供的工作，专业资历的提及，以及tweets。

来源：DB-Engines，2017年1月 http://db-engines.com/en/ranking

虽然Impala、Spark SQL、Drill、Hawq 和Presto 一直在运行性能、并发量和吞吐量上击败Hive，但是Hive 仍然是最流行的（至少根据DB-Engines 的标准）。原因有3个：

Hive 是Hadoop 的默认SQL 选项，每个版本都支持。而其他的要求特定的供应商和合适的用户；
Hive 已经在减少和其他引擎的性能差距。大多数Hive 的替代者在2012年推出，分析师等待Hive 查询的完成等到要自杀。然而当Impala、Spark、Drill 等大步发展的时候，Hive只是一直跟着，慢慢改进。现在，虽然Hive 不是最快的选择，但是它比五年前要好得多；
虽然前沿的速度很酷，但是大多数机构都知道世界并没有尽头。即使一个年轻的市场经理需要等待10秒钟来查明上周二Duxbury 餐厅的鸡翅膀的销量是否超过了牛肉汉堡。

在下面的图2中可以看出，相对于领先的商业数据仓库应用，用户对顶尖的SQL 引擎更感兴趣。

来源：DB-Engines，2017年1月 http://db-engines.com/en/ranking

对于开源项目来说，最佳的健康度量是它的活跃开发者社区的大小。如下面的图3所示，Hive 和Presto 有最大的贡献者基础。（Spark SQL 的数据暂缺）

来源：Open Hub https://www.openhub.net/

在2016年，Cloudera、Hortonworks、Kognitio 和Teradata 陷入了Tony Baer 总结的基准测试之战，令人震惊的是，供应商偏爱的SQL 引擎在每一个研究中都击败了其他选择，这带来一个问题：基准测试还有意义吗？

AtScale 一年两次的基准测试并不是毫无根据的。作为一个BI 初创公司，AtScale 销售衔接BI 前端和SQL 后端的软件。公司的软件是引擎中立的，它尝试尽可能多的兼容，其在BI 领域的广泛经验让这些测试有了实际的意义。

AtScale 最近的关键发现，包括了Hive、Impala、Spark SQL 和Presto：

4个引擎都成功运行了AtScale 的BI 基准查询；
取决于数据量、查询复杂度和并发用户数，每个引擎都有自己的性能优势：
- Impala 和Spark SQL 在小数据量的查询上击败了其他人；
- Impala 和Spark SQL 在大数据量的复杂join 上击败了其他人；
- Impala 和Presto 在并发测试上表现的更好。
对比6个月之前的基准测试，所有的引擎都有了2-4倍的性能提升。

Alex Woodie 报告了测试结果，Andrew Oliver 对其进行分析。

让我们来深入了解这些项目。

Apache Hive

在2016年，Hive 有100多人的贡献者。该团队在2月份发布了Hive 2.0，并在6月份发布了Hive 2.1。Hive 2.0 的改进包括了对Hive-on-Spark 的多个改进，以及性能、可用性、可支持性和稳定性增强。Hive 2.1 包括了Hive LLAP（”Live Long and Process“），它结合持久化的查询服务器和优化后的内存缓存，来实现高性能。该团队声称提高了25倍。