HAWQ技术解析(八) —— 大表分区

一、HAWQ中的分区表        与大多数关系数据库一样,HAWQ也支持分区表。这里所说的分区表是指HAWQ的内部分区表,外部分区表在后面“外部数据”篇讨论。在数据仓库应用中,事实表通常有非常多的记录,分区可以将这样的大表在逻辑上分为小的、更易管理的数据片段。HAWQ的优化器支持分区消除以提高查询性能。只要查询条件中可以使用分区键作为过滤条件,那么HAWQ只需要扫描满足查询条件的分区,而不必进...
阅读(2421) 评论(0)

HAWQ技术解析(六) —— 定义对象

HAWQ本质上是一个数据库系统,所以这里所说的对象指的是数据库对象。和其它关系数据库类似,HAWQ中有数据库、表空间、表、视图、自定义数据类型、自定义函数、序列等对象。本篇将简述这些对象的创建与管理。对HAWQ中表的存储方式与分布策略等特性的选择,会对数据库性能产生极大的影响,同时这也是一个复杂的话题,将在下一篇单独讨论。一、创建和管理数据库        HAWQ中数据库的概念与MySQL类似,...
阅读(1255) 评论(0)

HAWQ技术解析(五) —— 连接管理

服务器启动后,还要经过一系列配置,才能被客户端程序所连接。本篇说明如何配置客户端身份认证,HAWQ的权限管理机制,HAWQ最常用的命令行客户端工具psql及与mysql命令行常用命令类比,最后还将列举一些客户端连接HAWQ数据库的常见问题排查。一、配置客户端身份认证        上一篇曾经提到,HAWQ系统初始安装后,数据库包含一个预定义的超级用户。这个用户和安装HAWQ的操作系统用户用户具有相...
阅读(2577) 评论(4)

HAWQ技术解析(四) —— 启动停止

前面已经完成了HAWQ的安装部署,也了解了HAWQ的系统架构与主要组件,下面开始使用它。HAWQ作为Hadoop上的一个服务提供给用户,与其它所有服务一样,最基本的操作就是启动、停止、重启服务。要完成这些操作,需要适当的环境设置。下面就HAWQ管理的一些基础概念、操作环境、启动停止及其推荐的操作进行讨论。一、基础概念        如果组织中能够做到系统管理与开发分离,那这部分内容严格说应该是HA...
阅读(2186) 评论(0)

HAWQ技术解析(三) —— 基本架构

HAWQ是一个Hadoop原生的SQL查询引擎,它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据,MPP架构使HAWQ表现出超越其它SQL on Hadoop解决方案的查询性能,Hadoop又为HAWQ提供了传统数据库所不具备的线性扩展能力。一、HAWQ的架构        在一个典型的HAWQ部署中,每个slave节点上会安装有一个HAWQ物理段,一个H...
阅读(1611) 评论(0)

HAWQ技术解析(二) —— 安装部署

一、安装规划1. 选择安装介质        HAWQ的安装介质有两种选择,一是下载源码手工编译,二是使用Pivotal公司提供的HDB安装包。源码的下载地址为http://apache.org/dyn/closer.cgi/incubator/hawq/2.0.0.0-incubating/apache-hawq-src-2.0.0.0-incubating.tar.gz,目前最新版本是2.0....
阅读(2580) 评论(3)

HAWQ技术解析(一) —— HAWQ简介

一、SQL on Hadoop        过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoo...
阅读(3842) 评论(0)

将MySQL去重操作优化到极致之三弹连发(三):用rocksdb替代innodb

前面已经建立了索引,优化了SQL语句,并将单线程变为多线程并行执行,去重时间由最初的35秒优化为3.5秒,是不是就到此为止呢?吴老师又使用了rocksdb存储引擎替代innodb的方法。这里有必要交代一下命题的背景。这道MySQL数据库优化的题目出自是阿里内部的竞赛题,当然我是听吴老师口述的,真正的题目及其竞赛规则与竞赛环境不甚明确,但有一条是允许自由选择MySQL存储引擎。在实际的生产环境中,几...
阅读(2227) 评论(2)

将MySQL去重操作优化到极致之三弹连发(二):多线程并行执行

上一篇已经将单条查重语句调整到最优,但该语句是以单线程方式执行。能否利用多处理器,让去重操作多线程并行执行,从而进一步提高速度呢?比如我的实验环境是4处理器,如果使用4个线程同时执行查重sql,理论上应该接近4倍的性能提升。一、数据分片        我们生成测试数据时,created_time采用每条记录加一秒的方式,也就是最大和在最小的时间差为50万秒,而且数据均匀分布。因此先把数据平均分成4...
阅读(2010) 评论(0)

将MySQL去重操作优化到极致之三弹连发(一):巧用索引与变量

元旦假期收到阿里吴老师来电,被告知已将MySQL查重SQL优化到极致:100万原始数据,其中50万重复,把去重后的50万数据写入目标表只需要9秒钟。这是一个惊人的数字,要知道仅是insert 50万条记录也需要些时间的。于是来了兴趣,自己实验、思考、总结做了一遍。一、问题提出        源表t_source结构如下:item_id int,created_time datetime,modif...
阅读(2086) 评论(2)

年年岁岁花相似,岁岁年年人不同

2016年就这么过去了,回头望一望这一年所经历的的种种平凡琐事,总想说点什么。在国企工作的三年半时间里,每年这个时候都要写工作总结,并且要当着单位所有人的面说一遍。口才好或表现欲强的同事在这个场合通常会脱稿演说,或口若悬河,或语出惊人,虽然有哗众取宠之嫌疑,但足令我等文采口才双输之辈羡慕之至。此一时彼一时,环境变了,现在公司没人要求写总结了,反而到觉得年终总结是一件很有必要的事情。下面不是工作总结...
阅读(850) 评论(3)

Oracle 10g 加密包 DBMS_CRYPTO

Oracle DBMS_CRYPTOVersion 10.2 General InformationSource{ORACLE_HOME}/rdbms/admin/dbmsobtk.sqlAlgorithm ConstantsNameData TypeValueHash FunctionsHASH_MD4 (128 bit hash)PLS_INTEGER1HASH_MD5 (128 bit ha...
阅读(688) 评论(0)

Oracle 中的树查询和 connect by

Oracle 中的树查询和 connect by使用 connect by 和 start with 来建立类似于树的报表并不难,只要遵循以下基本原则即可:使用 connect by 时各子句的顺序应为:selectfromwherestart withconnect byorder byprior 使报表的顺序为从根到叶(如果 prior 列是父辈)或从叶到根(如果 prior 列是后代)。wh...
阅读(453) 评论(0)

Oracle 10g 流复制(Streams Replication)配置

Oracle 流是一种数据共享的通用机制,可以被用于许多处理的基础,包括消息、复制和数据仓库的 ETL 过程。它是高级队列、LogMinor、作业调度等已存在技术的扩展。这里做一个简单的复制示例来说明其用法。试验环境:windows server 2003 sp1;10g 10.1.0.2源库:SID:db1 IP:10.1.8.201目的库:SID:db2 IP:10.1.9.49源、目的库的 ...
阅读(489) 评论(0)

Oracle 多主(Master Replication)复制配置

一、环境windows server 2003 sp1;10g 10.1.0.2主体定义站点:SID:db1 IP:10.1.8.201主体站点:SID:db2 IP:10.1.9.49二、配置1. db1 上的操作-- 确保下面参数配置db_domain='mytest.com'global_names=true-- tnsnames.ora 配置DB2 =    (DESCRIPTION = ...
阅读(507) 评论(0)
280条 共19页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1304666次
    • 积分:17428
    • 等级:
    • 排名:第550名
    • 原创:255篇
    • 转载:20篇
    • 译文:5篇
    • 评论:155条
    博客专栏
    文章分类
    最新评论