HAWQ技术解析(四) —— 启动停止

前面已经完成了HAWQ的安装部署,也了解了HAWQ的系统架构与主要组件,下面开始使用它。HAWQ作为Hadoop上的一个服务提供给用户,与其它所有服务一样,最基本的操作就是启动、停止、重启服务。要完成这些操作,需要适当的环境设置。下面就HAWQ管理的一些基础概念、操作环境、启动停止及其推荐的操作进行讨论。一、基础概念        如果组织中能够做到系统管理与开发分离,那这部分内容严格说应该是HA...
阅读(2859) 评论(0)

HAWQ技术解析(三) —— 基本架构

HAWQ是一个Hadoop原生的SQL查询引擎,它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据,MPP架构使HAWQ表现出超越其它SQL on Hadoop解决方案的查询性能,Hadoop又为HAWQ提供了传统数据库所不具备的线性扩展能力。一、HAWQ的架构        在一个典型的HAWQ部署中,每个slave节点上会安装有一个HAWQ物理段,一个H...
阅读(2408) 评论(0)

HAWQ技术解析(二) —— 安装部署

一、安装规划1. 选择安装介质        HAWQ的安装介质有两种选择,一是下载源码手工编译,二是使用Pivotal公司提供的HDB安装包。源码的下载地址为http://apache.org/dyn/closer.cgi/incubator/hawq/2.0.0.0-incubating/apache-hawq-src-2.0.0.0-incubating.tar.gz,目前最新版本是2.0....
阅读(4011) 评论(3)

HAWQ技术解析(一) —— HAWQ简介

一、SQL on Hadoop        过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoo...
阅读(6713) 评论(0)

将MySQL去重操作优化到极致之三弹连发(三):用rocksdb替代innodb

前面已经建立了索引,优化了SQL语句,并将单线程变为多线程并行执行,去重时间由最初的35秒优化为3.5秒,是不是就到此为止呢?吴老师又使用了rocksdb存储引擎替代innodb的方法。这里有必要交代一下命题的背景。这道MySQL数据库优化的题目出自是阿里内部的竞赛题,当然我是听吴老师口述的,真正的题目及其竞赛规则与竞赛环境不甚明确,但有一条是允许自由选择MySQL存储引擎。在实际的生产环境中,几...
阅读(2873) 评论(2)

将MySQL去重操作优化到极致之三弹连发(二):多线程并行执行

上一篇已经将单条查重语句调整到最优,但该语句是以单线程方式执行。能否利用多处理器,让去重操作多线程并行执行,从而进一步提高速度呢?比如我的实验环境是4处理器,如果使用4个线程同时执行查重sql,理论上应该接近4倍的性能提升。一、数据分片        我们生成测试数据时,created_time采用每条记录加一秒的方式,也就是最大和在最小的时间差为50万秒,而且数据均匀分布。因此先把数据平均分成4...
阅读(2398) 评论(0)

将MySQL去重操作优化到极致之三弹连发(一):巧用索引与变量

元旦假期收到阿里吴老师来电,被告知已将MySQL查重SQL优化到极致:100万原始数据,其中50万重复,把去重后的50万数据写入目标表只需要9秒钟。这是一个惊人的数字,要知道仅是insert 50万条记录也需要些时间的。于是来了兴趣,自己实验、思考、总结做了一遍。一、问题提出        源表t_source结构如下:item_id int,created_time datetime,modif...
阅读(2333) 评论(2)

年年岁岁花相似,岁岁年年人不同

2016年就这么过去了,回头望一望这一年所经历的的种种平凡琐事,总想说点什么。在国企工作的三年半时间里,每年这个时候都要写工作总结,并且要当着单位所有人的面说一遍。口才好或表现欲强的同事在这个场合通常会脱稿演说,或口若悬河,或语出惊人,虽然有哗众取宠之嫌疑,但足令我等文采口才双输之辈羡慕之至。此一时彼一时,环境变了,现在公司没人要求写总结了,反而到觉得年终总结是一件很有必要的事情。下面不是工作总结...
阅读(1005) 评论(3)

Oracle 10g 加密包 DBMS_CRYPTO

Oracle DBMS_CRYPTOVersion 10.2 General InformationSource{ORACLE_HOME}/rdbms/admin/dbmsobtk.sqlAlgorithm ConstantsNameData TypeValueHash FunctionsHASH_MD4 (128 bit hash)PLS_INTEGER1HASH_MD5 (128 bit ha...
阅读(876) 评论(0)

Oracle 中的树查询和 connect by

Oracle 中的树查询和 connect by使用 connect by 和 start with 来建立类似于树的报表并不难,只要遵循以下基本原则即可:使用 connect by 时各子句的顺序应为:selectfromwherestart withconnect byorder byprior 使报表的顺序为从根到叶(如果 prior 列是父辈)或从叶到根(如果 prior 列是后代)。wh...
阅读(543) 评论(0)

Oracle 10g 流复制(Streams Replication)配置

Oracle 流是一种数据共享的通用机制,可以被用于许多处理的基础,包括消息、复制和数据仓库的 ETL 过程。它是高级队列、LogMinor、作业调度等已存在技术的扩展。这里做一个简单的复制示例来说明其用法。试验环境:windows server 2003 sp1;10g 10.1.0.2源库:SID:db1 IP:10.1.8.201目的库:SID:db2 IP:10.1.9.49源、目的库的 ...
阅读(682) 评论(0)

Oracle 多主(Master Replication)复制配置

一、环境windows server 2003 sp1;10g 10.1.0.2主体定义站点:SID:db1 IP:10.1.8.201主体站点:SID:db2 IP:10.1.9.49二、配置1. db1 上的操作-- 确保下面参数配置db_domain='mytest.com'global_names=true-- tnsnames.ora 配置DB2 =    (DESCRIPTION = ...
阅读(643) 评论(0)

Oracle 高级数据复制(Advanced Replication)

一、试验环境:A机:IP:10.1.8.201     OS:WindowsServer 2003 Standard Edition SP1;     DB:Oracle 10g Enterprise Edition Release 10.1.0.2.0;     数据库字符集:NLS_CHARACTERSET ZHS16GBKB机:IP:10.1.9.49     OS:WindowsServe...
阅读(481) 评论(0)

Oracle自定义一个把 IP 地址转成整数的函数

CREATE OR REPLACE FUNCTION fn_ipaddr_to_num (p_ipaddr VARCHAR2) RETURN NUMBER IS v_ret NUMBER := 0; k INT := 3; j INT := 0; i INT := 1; len INT := 0; len1 INT := 0; str...
阅读(926) 评论(0)

Oracle 自定义split 函数

Oracle没有提供split函数,但可以自己建立一个函数实现此功能。比如“abc defg  hijkl   nmopqr     stuvw  xyz”,分隔符是空格,但空格个数不定。源代码:CREATE OR REPLACE TYPE ty_str_split IS TABLE OF VARCHAR2 (4000);CREATE OR REPLACE FUNCTION fn_var_spli...
阅读(926) 评论(0)
292条 共20页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1428288次
    • 积分:18732
    • 等级:
    • 排名:第527名
    • 原创:267篇
    • 转载:20篇
    • 译文:5篇
    • 评论:184条
    博客专栏
    文章分类
    最新评论