HAWQ论文笔记

最新推荐文章于 2020-11-26 04:40:55 发布

镜中影

最新推荐文章于 2020-11-26 04:40:55 发布

阅读量2.5k

点赞数

分类专栏：数据库文章标签： hadoop parallel 数据库 MPP数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linkpark1904/article/details/49884017

版权

HAWQ是一个基于HDFS的MPP SQL引擎，支持标准SQL及事务，性能优于Hive和Stinger。它采用无状态分片架构，基于UDP的网络协议和Simming Lane事务模型。HAWQ的特性包括元数据分离、独立执行引擎、并发更新支持。文章详细介绍了其架构、数据分布、查询执行流程和存储模型。

摘要由CSDN通过智能技术生成

原创文章，转载请注明: 转载自镜中影的技术博客
本文链接地址: HAWQ论文笔记
URL:http://blog.csdn.net/linkpark1904/article/details/49884017

1、背景

HAWQ是一个构建在HDFS之上的MPP（massively parallel processing）SQL引擎，不像其他构建在hadoop之上的SQL引擎，HAWQ支持标准SQL，并且完整的支持数据库事务。性能上，HAWQ比Stinger快40倍，比原生的HIVE快35倍-40倍。
对于分析型业务，系统需要满足这样一些特性，去满足用户的需求:

交互性查询（Interactive queries）
线性可扩展性（Scalability）
一致性（Consistency）
通用性（Extensibility）
支持通用标准(Standard compliance)
生产率：(Productivity)

Hadoop生态圈在这方面很难满足所有的需求，MapReduce是hadoop的基础计算框架用来计算结构化数据以及非结构化数据。然而，MapReduce在许多应用上存在诸多的限制，例如，很难满足交互性分析，低层次的编程模型对业务分析事务不友好。当然，Hive和Pig的出现弥补了一些不足，但是计算性能依然满足不了实时计算的需求。

在数据库领域，一个主要的趋势是构建MPP数据库系统(独立节点构成的分布式集群)。
HAWQ主要有以下几个方面的特性:

无状态分片（stateless segment）架构，支持元数据分离以及独立的执行引擎。
基于UDP的网络交互协议，解决计算过程中TCP端口不足问题。
基于Simming lane的事务模型，用来支持并发更新操作。
比原生HIVE快40倍。

2、架构

HAWQ集群构建在通用的硬件体系之上（x86集群），没有用到一些特殊的硬件。

HAWQ分层架构如下图2-1所示，一个MPP shared-nothing计算层构建在存储层（hdfs）之上。一个HAWQ集群

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。