HAWQ论文笔记

HAWQ是一个基于HDFS的MPP SQL引擎,支持标准SQL及事务,性能优于Hive和Stinger。它采用无状态分片架构,基于UDP的网络协议和Simming Lane事务模型。HAWQ的特性包括元数据分离、独立执行引擎、并发更新支持。文章详细介绍了其架构、数据分布、查询执行流程和存储模型。
摘要由CSDN通过智能技术生成

原创文章,转载请注明: 转载自 镜中影的技术博客
本文链接地址: HAWQ论文笔记
URL:http://blog.csdn.net/linkpark1904/article/details/49884017

1、背景

HAWQ是一个构建在HDFS之上的MPP(massively parallel processing)SQL引擎,不像其他构建在hadoop之上的SQL引擎,HAWQ支持标准SQL,并且完整的支持数据库事务。性能上,HAWQ比Stinger快40倍,比原生的HIVE快35倍-40倍。
对于分析型业务,系统需要满足这样一些特性,去满足用户的需求:

  1. 交互性查询(Interactive queries)
  2. 线性可扩展性(Scalability)
  3. 一致性(Consistency)
  4. 通用性(Extensibility)
  5. 支持通用标准(Standard compliance)
  6. 生产率:(Productivity)

Hadoop生态圈在这方面很难满足所有的需求,MapReduce是hadoop的基础计算框架用来计算结构化数据以及非结构化数据。然而,MapReduce在许多应用上存在诸多的限制,例如,很难满足交互性分析,低层次的编程模型对业务分析事务不友好。当然,Hive和Pig的出现弥补了一些不足,但是计算性能依然满足不了实时计算的需求。

在数据库领域,一个主要的趋势是构建MPP数据库系统(独立节点构成的分布式集群)。
HAWQ主要有以下几个方面的特性:

  1. 无状态分片(stateless segment)架构,支持元数据分离以及独立的执行引擎。
  2. 基于UDP的网络交互协议,解决计算过程中TCP端口不足问题。
  3. 基于Simming lane的事务模型,用来支持并发更新操作。
  4. 比原生HIVE快40倍。

2、架构

HAWQ集群构建在通用的硬件体系之上(x86集群),没有用到一些特殊的硬件。

HAWQ分层架构如下图2-1所示,一个MPP shared-nothing计算层构建在存储层(hdfs)之上。一个HAWQ集群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值