2017年02月_数据源的港湾

原创 Solr vs Elasticsearch vs Lucene

最近看到有一个客户他们用的是Elasticsearch, 说实话，本人对Elasticsearch之前了解的比较少，准确地说，对“搜索引擎”这块了解的比较少。今天就各种搜索，收集了一些“搜索引擎”相关的基础知识，以备不时之须。首先了解一下什么是“搜索引擎”，下面这段话来自于百度百科，搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处

2017-02-27 17:32:07 6083

原创 Sqoop1 从Oracle往Hive迁移数据

本篇幅讲述如何利用CDH Hadoop版本上面的Sqoop1从Oracle往Hive迁移数据，例子比较简单，仅供参考。1 列出CDH目录下面的sqoop所有相关命令[root@n12 bin]# pwd/opt/cloudera/parcels/CDH/bin[root@n12 bin]# ll sqoop*-rwxr-xr-x 1 root root 918 Jul 23 2016 sq

2017-02-24 15:22:28 2579

原创 Trafodion 查询表包含字段

Trafodion把所有的表、列、索引等元信息存储在单独的schema下面，这个schema名称为”MD“。下面我们来看下元数据schema下面的内容，SQL>set schema "_MD_";--- SQL operation complete.SQL>get tables;Tables in Schema TRAFODION._MD_=============================

2017-02-21 18:06:03 805

原创 Trafodion Troubleshooting-server handle not available

现象–通过Dbvisualizer或Trafci等客户端工具无法连接数据库服务，检查数据库状态一切正常，如下图所示分析–通过24400端口检查DCS连接数，发现所有连接均被使用解决–修改并增加DCS最大连接连接数，参考：http://blog.csdn.net/post_yuan/article/details/53835578

2017-02-21 11:31:30 867 2

原创 Linux ulimit 命令

语法ulimit [options] [limit]-option 选项含义例子 -H 设置硬资源限制，一旦设置不能增加 ulimit -Hs 64;限制硬资源，线程栈大小为64K -S 设置软资源限制，设置后可以增加，但不能超过硬资源设置 ulimit -Sn 32;限制软资源，32个文件描述符｜ -a 显示当前所有的limit信息 ulimi

2017-02-20 15:44:01 613

原创 Trafodion 索引

今天群里面有人问了一个问题：很多公司用Solr对HBase建二级索引，是不是如果用了Trafodion，就可以把Solr完全替代？针对Trafodion是否可以完全代替Solr这问题，至少现在看来我觉得是不会的，Trafodion目前来说是一个SQL on HBase的关系型数据库，而Solr是一个主要用来做搜索的产品，在这一点上Trafodion目前还没有比较好的解决方案可以替代Solr，Traf

2017-02-20 12:42:12 1252

原创 Trafodion 存储过程的优势

今天有人问了个问题：Trafodion的存储过程是用Java实现的，既然如此，为何要建立存储过程，为什么不直接写业务代码实现，而是建立复杂的Trafodion存储过程，Trafodion存储过程的优势在哪里？不可否认，由于Trafodion目前还不支持PL/SQL，建立存储过程确实相对有点麻烦，需要编写Java类，编码打包上并上传到每个Trafodion安装的节点。但说到Trafodion存储过程的

2017-02-15 15:57:38 858

原创 Flume 简介

Flume 是 Cloudera提供的一个高可用、高可靠的分布式海量日志采集、聚合及传输的系统，它是一种基于流式数据流的简单易用的架构，具体架构图如下，Flume有两个主要版本-Flume OG和Flume NG。Flume OG(original generation)是Flume的初始版本，属于Cloudera，但随着功能扩展，Flume OG代码工程臃肿，核心组件设计不合理等缺点暴露出来，为解

2017-02-15 13:22:39 990

转载浅析Trafodion体系结构

Trafodion简介Trafodion是一个构建在Hadoop/HBase基础之上的关系型数据库，它完全开源免费。Trafodion能够完整地支持ANSI SQL，并且提供ACID事务保证。和传统关系数据库不同的地方在于，Trafodion利用底层Hadoop的横向扩展能力，可以提供极高的扩展性。而传统数据库，比如MySQL，在数据量达到P级别的时候就很难处理。而Trafodion却可以借助HBa

2017-02-13 11:17:42 1197

转载 Trafodion事务管理简述

Trafodion这个词的本意是“事务”，可见项目组对事务处理的重视程度。事务主要用来防止和处理数据出现不一致的错误。首先理解什么是数据一致性，给出具体的定义实在太为难笔者。还是举个例子吧。笔者年轻时大家都知道“香港四大天王”，他们是刘德华，张学友，黎明和郭富城。我定义这四个名字是“一致的”，而“刘学友”或者“张德华”就不是一致性的数据。或者在介绍的时候不全：比如“香港四大天王是：刘德华,”，其他天

2017-02-13 10:52:49 742

转载 Trafodion成熟的SQL on HBase解决方案

简介Trafodion是一个开源Apache项目。它提供了一个成熟的企业级SQL on HBase解决方案。Trafodion的主要设计思想是处理operational类型的工作负载，或者是传统的OLTP应用。此外，对于需要保证数据一致性，需要标准SQL开发接口，或者需要实时数据读写分析的应用，Trafodion也是一个非常合适的解决方案。首先，请允许笔者简单介绍一下她的前世今生。Trafodion

2017-02-13 10:00:50 2821

翻译 Impala 简介

Impala是Hadoop之上的一款SQL查询引擎。使用Impala，可以通过标准SQL语法如SELECT、JOIN及聚合函数等实时地查询Hadoop上的数据（HDFS数据或者是HBase中的数据）。Impala使用和Apache Hive同样的metadata，SQL 语法（Hive SQL），ODBC驱动及Hue接口，提供一个面向批处理或实时查询的统一平台。（因而Hive用户可以很方面的去使用I

2017-02-13 09:39:20 1232

原创 CDH 系统优化之关闭透明大页面及设置swappiness

安装完CDH后，CDH Manager一般会提示用户需要做一些Linux系统层面的优化，主要包括两类：禁止透明大面及交换分区设置。详情请参考Cloudera官方网址：https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_admin_performance.html本文描述一下如何执行这个优化工作，以CentOS为例1

2017-02-10 12:17:31 7000

原创 EsgynDB/Trafodion DCS配置HA

Trafodion通过DCS作为客户端和数据库服务端的连接桥梁。默认情况下，Trafodion安装完只有一个DCSMaster进程，每个Trafodion节点一个DCSServer进程。殊不知，DCS是可以配置HA来保证高可用和稳定性。Trafodion安装过程中可以配置DCS HA，配置DCS HA需要配置以下三个参数：Floating IP、Interface、Backup Master Nod

2017-02-09 18:14:09 1014

原创 Trafodion 临时表

关系型数据库几乎都有临时表的概念，一般语法为CREATE TEMP/TEMPORARY TABLE …，Trafodion自然也有临时表，其语法为CREATE VOLATILE TABLE …。关于详细的Trafodion建表语句，可参考官方文档： http://trafodion.incubator.apache.org/docs/sql_reference/index.html#create_t

2017-02-09 11:07:57 639

原创 Sqoop1 与 Sqoop2

Sqoop即SQL to Hadoop，是一款方便的在RDBMS数据库（如Oracle，MySQL，Postgresql等）与Hadoop之间进行数据迁移的工具，它充分利用MapReduce并行特点以批处理的方式加快数据传输，目前主要包括两个版本：Sqoop1和Sqoop2。Sqoop是Hadoop下连接关系型数据库和Hadoop的桥梁，支持关系型数据库和Hive、HDFS、HBase之间的数据导入

2017-02-08 14:47:40 3651

原创 Trafodion 安装所依赖的Hadoop组件

鉴于网上关于安装Trafodion相关的文章较少，且大部分文章只是说明依赖Hadoop，却并没有说明需要哪些Hadoop组件，这里写一篇简短的文章说明一下。我们知道Trafodion是一个SQL on Hadoop的数据库，准确地说是一个SQL on HBase的数据库，因为每个Trafodion表实质上是一个HBase表。因此，安装Trafodion之前，必须保证Hadoop集群中安装了HBase

2017-02-08 12:02:50 907

原创 Trafodion 处理JSON半结构化数据

Trafodion不仅可以处理结构化数据，还可以处理半结构化数据及非结构化数据，对于半结构化数据和非结构化数据，主要用到TMUDF功能。本文通过一个实际的案例详解如何通过自定义一个TMUDF来解析JSON格式文本从而实现对半结构化数据的处理。1 编写JAVA类实现解析JSON文本，可参考https://github.com/esgyn/code-examples/blob/master/src/

2017-02-06 11:36:56 1362

原创 Trafodion 行列转换

Trafodion中提供一个函数叫做group_concat，用于把多列转成一行，具体语法请参考官方手册 http://trafodion.incubator.apache.org/docs/sql_reference/index.html#group_concat_function下面是自己作的一个小试验测试group_concat基本功能，--Test group_concat function

2017-02-03 11:39:43 497

数据源的港湾