HAWQ
songbintao
一直在从事数据库方面的工作。从数据库运维、开发、到后来的设计、优化、迁移,在这条路上慢慢前行。
展开
-
HAWQ--简介
HAWQ是Hadoop原生SQL查询引擎,结合了MPP数据库的关键技术优势和Hadoop的可扩展性和便捷性。HAWQ从HDFS本地读取数据并将数据写入HDFS。 HAWQ提供业界领先的性能和线性可伸缩性。它为用户提供了自信和成功地与petabyte range数据集交互的工具。HAWQ为用户提供了一个完整的、符合标准的SQL接口。更具体地说,HAWQ有以下特点: 本地或云部署 健壮的ANSI...翻译 2018-08-10 14:46:34 · 16092 阅读 · 0 评论 -
HAWQ--体系结构
本主题介绍了HAWQ体系结构及其主要组件。 在典型的HAWQ部署中,每个slave都有一个物理HAWQ段、一个HDFS DataNode和一个NodeManager。HAWQ、HDFS和YARN的master部署在独立的节点上。 下图提供了典型的HAWQ部署的高级体系结构视图。 HAWQ集成了Hadoop资源管理框架YARN,用于查询资源管理。HAWQ将YARN的容器缓存到资源池中,然后利用...翻译 2018-08-10 16:55:34 · 1139 阅读 · 0 评论 -
HAWQ--运行时执行弹性查询
HAWQ使用动态分配的虚拟段为查询执行提供资源。 在HAWQ 1.x,用于运行查询的segments(计算资源载体)是固定的,不管底层查询是需要很多资源的大查询还是需要很少资源的小查询。这个架构很简单,然而它使用资源的效率很低。 为了解决这个问题,HAWQ现在使用运行时执行弹性查询特性,它基于虚拟段。HAWQ根据查询的成本需求分配虚拟段。换句话说,对于大型查询,HAWQ启动了大量的虚拟段,而对...翻译 2018-08-14 14:03:44 · 463 阅读 · 0 评论 -
HAWQ--资源管理
HAWQ提供了几种资源管理方法,并包括一些用户可配置的选项,包括与YARN的资源管理的集成。 HAWQ有使用以下机制管理资源的能力: 全局资源管理。您可以集成HAWQ与YARN资源管理器,根据需要请求或返回资源。如果不集成HAWQ与YARN,HAWQ只会消耗集群资源并管理自己的资源。如果将HAWQ与YARN集成在一起,HAWQ就会自动从YARN获取资源,并通过内部定义的资源队列管理这些资源。当资...翻译 2018-08-14 17:28:52 · 205 阅读 · 0 评论 -
HAWQ--表的分布和存储
Table Distribution and Storage HAWQ存储除了系统表以外的所有的表数据在HDFS。一个用户创建一个表时,元数据存储在master的本地文件系统,表内容存储在HDFS。 为了简化表数据的管理,所有的关联数据存放在一个HDFS目录。 对于所有HAWQ表存储格式、AO (append only)和Parquet,数据文件都是可分割的,这样HAWQ就可以分配多个虚拟段...翻译 2018-08-13 11:35:21 · 1152 阅读 · 0 评论 -
HAWQ--目录缓存
HDFS目录缓存是HAWQ master用于确定表数据在HDFS上的分布信息的缓存服务。 HDFS在RPC处理方面速度慢,特别是当并发请求数量很高时。为了决定哪个segments 处理哪部分数据,HAWQ需要从HDFS namenodes获得数据位置信息。HDFS目录缓存用于缓存数据位置信息并加速HDFS RPCS。...翻译 2018-08-22 17:52:07 · 213 阅读 · 0 评论 -
HAWQ--高可用、冗余、容错性
HAWQ集群通过系统冗余确保高可用性。HAWQ部署使用平台硬件冗余,例如master catalog的RAID、segments的JBOD和互连层的网络冗余。在软件级别,HAWQ通过主镜像和双集群维护提供冗余。此外,HAWQ还支持HDFS中的高可用NameNode配置。 为了维护集群的健康,HAWQ使用基于心跳和按需探测协议的容错服务。它可以动态地识别新添加的节点,并在无法使用时从集群中删除节点...翻译 2018-08-30 16:27:18 · 601 阅读 · 0 评论