HAWQ--简介

最新推荐文章于 2024-06-10 09:31:31 发布

songbintao

最新推荐文章于 2024-06-10 09:31:31 发布

阅读量1.6w

点赞数 1

分类专栏： HAWQ

HAWQ 专栏收录该内容

7 篇文章

订阅专栏

HAWQ是Hadoop原生SQL查询引擎，结合了MPP数据库的关键技术优势和Hadoop的可扩展性和便捷性。HAWQ从HDFS本地读取数据并将数据写入HDFS。

HAWQ提供业界领先的性能和线性可伸缩性。它为用户提供了自信和成功地与petabyte range数据集交互的工具。HAWQ为用户提供了一个完整的、符合标准的SQL接口。更具体地说，HAWQ有以下特点:

本地或云部署
健壮的ANSI SQL遵从:SQL-92, SQL-99, SQL-2003, OLAP扩展
极高的性能——比其他Hadoop SQL引擎快很多倍
世界级的并行优化器
完整的事务处理能力和一致性保证:ACID
基于高速UDP的互连的动态数据流引擎
弹性执行引擎基于按需虚拟段和数据局部性
支持多级分区和基于列表/范围的分区表。
多重压缩方法支持:snappy, gzip
多语言用户定义函数支持:Python, Perl, Java, C/C++, R
基于MADLib的高级机器学习和数据挖掘功能
动态节点扩展:以秒为单位
最先进的三级资源管理:集成YARN分层资源队列。
轻松访问所有HDFS数据和外部系统数据(例如，HBase)
原生Hadoop:从存储(HDFS)、资源管理(YARN)到部署(Ambari)。
身份验证和粒度授权:Kerberos、SSL和基于角色的访问
HDFS和YARN的高级C/ c++访问库:libhdfs3和libYARN
对大多数第三方工具的支持:Tableau, SAS等。
标准接口：JDBC/ODBC

HAWQ将复杂的查询分解为小任务，并将它们分发给MPP查询处理单元执行。

HAWQ并行度的基本单位是段实例。一个并行查询处理系统由服务器上的多个工作段实例形成。优化过的查询提交给HAWQ，被分解为更小的组件，并被分派到一起工作的段实例，并生成单个结果集。所有关联操作(如表扫描、连接、聚合和排序)同时在各段并行执行。来自动态管道中上游组件的数据通过可伸缩用户数据报协议(UDP)连接并传输到下游组件。

基于Hadoop分布式存储，HAWQ不存在单点故障，支持全自动在线恢复。系统状态在持续监控，因此如果一个段失败，将自动从集群中删除。在此过程中，系统能继续客户查询服务，必要时可以重新添加回系统。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。