2017年03月_数据源的港湾

原创 Trafodion 主要进程介绍

在一个Trafodion正常运行的环境中，通过sqps命令，我们可以查看到Trafodion主要的进程，以下输出是一个3个Trafodion节点的集群环境，[trafodion@n12 esgynDB-2.2.0]$ sqpsProcessing cluster.conf on local host n12[$Z001GYK] Shell/shell Version 1.0.1 EsgynDB_

2017-03-22 16:14:18 1468 1

原创 Sqoop 加载数据到ORC表

sqoop目前支持直接从RDBMS加载数据到Hive的ORC表，这可以通过两种方式实现。先创建Hive ORC表，然后用sqoop import命令将数据导入到Hive ORC表利用sqoop import同时创建Hive ORC表并加载数据这里简单测试一些用sqoop从Oracle表导入到Hive ORC表，具体方法如下（1）//hive CLI创建orc测试表hive> create

2017-03-21 17:18:58 7714 1

原创 Kettle实现Oracle到Trafodion数据定时抽取

在之前的一篇文章中介绍到如何用Kettle从MySQL迁移数据到Trafodion，请见http://blog.csdn.net/post_yuan/article/details/52804105 本文进一步介绍如何利用Kettle的定时任务机制结合Linux自带的Cronjob实现从Oracle数据库到Trafodion数据库的定时数据抽取。首先，需要利用Kettle的Spoon工具创建相

2017-03-21 13:39:27 5019 2

原创 Hive Show命令

Show databases语法SHOW (DATABASES | SCHEMAS) [LIKE 'identifier'];举例hive> show databases;OKdefaulttpcds_parquetTime taken: 1.7 seconds, Fetched: 3 row(s)hive> show schemas;OKdefaulttpcd

2017-03-21 09:49:12 25135

原创 Apache JMeter实现Trafodion并发测试

本文介绍如何用Apache JMeter实现对Trafodion数据库的并发场景测试，关于JMeter的介绍，请参考官网手册：http://jmeter.apache.org/usermanual/index.htmlJMeter下载地址：http://jmeter.apache.org/download_jmeter.cgi此处假设已下载并安装好JMeter（我在这里使用的是JMeter 2.3.

2017-03-20 12:53:45 1174

原创 Hive Insert命令

Hive 加载数据主要有两种方式，一种是用Load直接加载文件，可以是从本地文件系统，也可以是从HDFS文件系统；Load方式不做任何的转换，只是纯粹的文件复制移动，关于Load加载详情，请见我的另一篇文章： http://blog.csdn.net/post_yuan/article/details/62883565除了Load加载数据，Hive也支持Insert命令，下面就来详细介绍Hive不同

2017-03-17 15:52:17 70330 5

原创 Hive Load命令

本文主要是翻译Hive官网关于Load的解释，原文来源于：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables介绍Hive Load语句不会在加载数据的时候做任何转换工作，而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法LOAD

2017-03-17 14:02:58 17293

原创 Trafodion 查看安装版本

Trafodion下面主要有两种方法查看当前安装的数据库版本，第一种，通过sqvers -u命令，如下[trafodion@n12 esgynDB-2.2.0]$ sqvers -uMY_SQROOT=/home/trafodion/esgynDB-2.2.0who@host=trafodion@n12JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk.x8

2017-03-17 09:12:29 825

原创 Hadoop fsck命令

今天在安装CDH的时候遇到了一些错误，典型一个关于HDFS的错误如下，Bad : 255 missing blocks in the cluster. 266 total blocks in the cluster. Percentage missing blocks: 95.86%. Critical threshold: any.网上查看这个问题的解决办法一般都是用Hadoop命令fsck，我也

2017-03-16 13:24:29 2569

原创数据库 VS 数据仓库

数据库是面向事务的，数据仓库是面向主题的。数据库一般存储在线交易数据，数据仓库一般存储历史数据。数据库设计是尽量避免冗余，一般采用范式规则设计，数据仓库设计有意引入冗余，采用反范式设计。数据库是为获取数据设计，数据仓库是为分析数据设计，数据仓库两个基本的元素是维表和事实表。数据库通常更关注业务交易处理(OLTP)，数据仓库更关注数据分析层面(OLAP)。数据库比较流行的有Oracle、MYSQL、S

2017-03-14 15:21:01 1706

原创 Hive Beeline

Beeline是Hive 0.11引入的新的交互式CLI，基于SQLLine，可以作为Hive JDBC Client端访问Hive Server2，启动一个Beeline就是维护一个session。 Hive Server1中我们习惯了用Hive CLI，方式如下，[trafodion@n12 udr]$ hiveOpenJDK 64-Bit Server VM warning: ignori

2017-03-10 15:27:27 2177

原创 Trafodion LOB大对象

Trafodion支持大对象类型，包括blob和clob，clob(Character Large Object)使用CHAR来保存数据，如保存XML文档，blob(Binary Large Object)，二进制大对象，可以存储二进制文件如图片。注：不建议在LOB字段上创建主键，也不建议在LOB字段上创建索引，一个表可以包含多个LOB字段。下面例子演示创建带有blob和clob字段的表，>>c

2017-03-09 16:59:51 676

原创 EsgynDB/Trafodion 如何解决OOM

EsgynDB/Trafodion对内存有一定的要求，对于中等规模的生产环境集群，我们一般推荐至少使用单机64G内存或以上，充足的内存是实现多ESP并发查询的前提保障。因此，如果环境的内存有限，我们就不得不考虑一些方法来避免可能由于内存限制导致的Out Of Memory问题。1 增大物理内存（这是最直接最有效和解决方法，推荐至少使用64G物理内存）2 减少ESP并发或不使用ESP并发（1）

2017-03-09 10:09:43 1222

原创 Trafodion 如何实现分页

很多应用都需要用到分页，因此不禁有人会用，如果数据库是Trafodion，分页应该怎么实现？Trafodion分页可能没有MySQL来的那么简单，MySQL分页一般用Limit，如下select * from test limit 1,10;Oracle分页一般用Rownum，如下select a1.* from (select student.*,rownum rn from student) a

2017-03-07 15:28:40 715

原创 Load with continue on error/log error rows to语法详解

Trafodion的Bulk Load是用Load into …命令实现的，而默认的不带任何options的Load在遇到数据不匹配的时候会自动退出，如果是大批量数据做Load的时候自动退出可能不是用户希望的结果，用户可能更希望能在遇到错误的时候继续加载数据或者是把错误信息存放到一个单独的日志文件中，这就是写本文的主要目的了，由于Trafodion官网手册里面并没有把这部分加进去，这里就写一篇短文介

2017-03-03 09:37:11 561

原创 Elasticsearch 安装教程

本文通过实例案例描述安装Elasticsearch多节点集群相关步骤，如有误，还请指正。1 环境准备两台CentOS 7的Linux虚拟机2 安装JDK分别在每台机器上安装JDK 1.8（根据ES官网最新要求，推荐版本Oracle JDK version 1.8.0_121）[es@cent-1 config]$ java -versionjava version "1.8.0_11"Java(

2017-03-02 10:35:47 1031

数据源的港湾