博客专栏  >  数据库   >  更好的Hadoop数据仓库解决方案——HAWQ技术解析

更好的Hadoop数据仓库解决方案——HAWQ技术解析

HAWQ是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析型应用。它采用了MPP和Hadoop结合的技术架构,以HDFS作为底层存储,可扩展,高性能,遵循ANSI-SQL标准,提供PB级数据交互式查询能力。

关注
43 已关注
19篇博文
  • HAWQ与Hive查询性能对比测试

    一、实验目的        本实验通过模拟一个典型的应用场景和实际数据量,测试并对比HAWQ内部表、外部表与Hive的查询性能。二、硬件环境1. 四台VMware虚机组成的Hadoop集群。2. 每台...

    2017-05-09 16:00
    4287
  • HAWQ技术解析(十八) —— 问题排查

    (原文地址:http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/troubleshooting/Troubleshoo...

    2017-04-28 15:10
    2907
  • HAWQ技术解析(十七) —— 最佳实践

    一、HAWQ参数配置最佳实践(原文地址:http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/bestpractices...

    2017-04-27 17:20
    2338
  • HAWQ技术解析(十六) —— 运维监控

    与任何IT系统一样,为了保证HAWQ集群的高可用和高性能,需要进行一系列监控与维护活动。本篇讨论HAWQ推荐的运维与监控活动。一、推荐的监控与维护任务        表1至表5是HAWQ向系统管理员推...

    2017-04-27 16:54
    1534
  • HAWQ技术解析(十五) —— 备份恢复

    一、为什么还需要备份        HAWQ作为一个数据库管理系统,备份与恢复是其必备功能之一。HAWQ的用户数据存储在HDFS上,系统表存储在master节点主机本地。HDFS上的每个数据块缺省自带...

    2017-04-25 13:51
    1520
  • HAWQ技术解析(十四) —— 高可用性

    一、HAWQ高可用简介        HAWQ作为一个传统数仓在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、HAWQ HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外...

    2017-04-24 17:52
    2803
  • HAWQ技术解析(十三) —— 资源管理

    一、HAWQ如何管理资源        HAWQ使用多种机制管理CPU、内存、I/O、文件句柄等系统资源,包括全局资源管理、资源队列、强制资源使用限额等。1. 全局资源管理        Hadoop...

    2017-04-21 16:09
    2630
  • HAWQ技术解析(十二) —— 查询优化

    即便对SELECT等数据库查询语句已经很熟悉了,但HAWQ里的查询有其自己的特点,还是需要研究一下。一、HAWQ的查询处理流程        理解HAWQ的查询处理过程有助于写出更加优化的查询。与任何...

    2017-04-14 10:41
    3157
  • HAWQ技术解析(十一) —— 数据管理

    一、基本操作1. INSERT        在常用的增删改查数据库操作中,HAWQ仅支持INSERT和SELECT两种,不支持UPDATE和DELETE,这主要是因为HDFS是一个只能追加数据而不能...

    2017-04-06 14:39
    4192
  • HAWQ技术解析(十) —— 过程语言

    HAWQ支持用户自定义函数(user-defined functions,UDF),还支持给HAWQ内部的函数起别名。编写UDF的语言可以是SQL、C、Java、Perl、Python、R和pgSQL...

    2017-03-24 19:48
    1780
  • HAWQ技术解析(九) —— 外部数据

    HAWQ不但可以读写自身系统中的表,而且能够访问HDFS、Hive、HBase等外部系统的数据。这是通过一个名为PXF的扩展框架实现的。大部分的外部数据是以HAWQ外部表的形式进行访问的,但对于Hiv...

    2017-03-23 11:03
    2716
  • HAWQ技术解析(八) —— 大表分区

    一、HAWQ中的分区表        与大多数关系数据库一样,HAWQ也支持分区表。这里所说的分区表是指HAWQ的内部分区表,外部分区表在后面“外部数据”篇讨论。在数据仓库应用中,事实表通常有非常多的...

    2017-03-15 14:34
    3139
  • HAWQ技术解析(七) —— 存储分布

    在HAWQ中创建一个表时,应该预先对数据如何分布、表的存储选项、数据导入导出方式和其它HAWQ特性做出选择,这些都将对数据库性能有极大影响。理解有效选项 的含义以及如何在数据库中使用它们,将有助于做出...

    2017-04-01 16:53
    5295
  • HAWQ技术解析(六) —— 定义对象

    HAWQ本质上是一个数据库系统,所以这里所说的对象指的是数据库对象。和其它关系数据库类似,HAWQ中有数据库、表空间、表、视图、自定义数据类型、自定义函数、序列等对象。本篇将简述这些对象的创建与管理。...

    2017-03-07 18:31
    1995
  • HAWQ技术解析(五) —— 连接管理

    服务器启动后,还要经过一系列配置,才能被客户端程序所连接。本篇说明如何配置客户端身份认证,HAWQ的权限管理机制,HAWQ最常用的命令行客户端工具psql及与mysql命令行常用命令类比,最后还将列举...

    2017-03-03 17:46
    3537
  • HAWQ技术解析(四) —— 启动停止

    前面已经完成了HAWQ的安装部署,也了解了HAWQ的系统架构与主要组件,下面开始使用它。HAWQ作为Hadoop上的一个服务提供给用户,与其它所有服务一样,最基本的操作就是启动、停止、重启服务。要完成...

    2017-03-02 17:54
    3048
  • HAWQ技术解析(三) —— 基本架构

    HAWQ是一个Hadoop原生的SQL查询引擎,它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据,MPP架构使HAWQ表现出超越其它SQL on Hadoop...

    2017-02-17 17:19
    2650
  • HAWQ技术解析(二) —— 安装部署

    一、安装规划1. 选择安装介质        HAWQ的安装介质有两种选择,一是下载源码手工编译,二是使用Pivotal公司提供的HDB安装包。源码的下载地址为http://apache.org/dy...

    2017-02-15 17:56
    4458
  • HAWQ技术解析(一) —— HAWQ简介

    一、SQL on Hadoop        过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典...

    2017-02-13 13:55
    7821
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部