2016年12月_数据源的港湾

原创 Trafodion性能优化之更新统计信息

对于大表，更新统计信息的操作通常也是很耗时的，下面是一些关于更新统计信息性能优化的方法， 1. 使用sample子句，语法为UPDATE STATISTICS FOR TABLE ON EVERY COLUMN SAMPLE; 2. 如果表上有很多列，部分列比较宽且在WHERE子句或GROUP BY子句不常用，可以在更新统计信息时跳过对这些列的统计信息更新操作。不要使用ON EVERY COL

2016-12-31 20:46:28 968

Trafodion提供两种加载数据的方式，(1)Trickle Load(使用upsert/insert) (2)Bulk Load。Trickle Load使用HBase的写路径，而Bulk Load直接创建HFiles并放到HBase里面。关于Trickle Load和Bulk Load的介绍，请参考我的另外一篇文章“ Trafodion 数据加载介绍 ”http://blog.csdn.net

2016-12-30 12:30:10 1059

原创 Trafodion 性能优化之查询性能

查询性能的优化很难用一篇文章来描述，通常情况下要根据具体的原因分析。下面是一些常用的用于优化查询性能的方法， 1. 在所有表上更新统计信息。在知道查询负载的情况下，先编译所有的查询语句并尽可能把丢失哪些统计信息的告警问题解决掉。 2. 如果查询可能花费很长时间或者是一个频繁执行的短查询，在执行前通过Explain先查看执行计划是否正确。 3. 使用Explain命令仔细分析执行计划中明显速度慢

2016-12-30 10:06:29 1216

原创 Trafodion 性能优化之DDL

影响Trafodion数据库性能的因素有很多，这也包括是否创建一个合适的表。创建表的时候有很多因素会影响到性能，下面就一一介绍一下建表时需要考虑的因素。1 选择一个好的主键(Primary Key) Trafodion中的表是按簇键(Cluster Key)顺序存储的，所以我们通常认为Trafodion的表本身也是一个索引。主键是具有唯一约束的特殊簇键。我们应优先选择那些在WHERE过滤中经常用到

2016-12-29 16:41:03 1512

原创 Trafodion 通过TMUDF访问远程Oracle数据库

在之前写的另外一篇文章“ Trafodion TMUDF(Table-Mapping UDF) ” http://blog.csdn.net/post_yuan/article/details/53173964，我们提到了什么是Trafodion的Table-Mapping UDF以及如何去实现一个简单的TMUDF。这篇文章介绍一个Build-In的TMUDF，可以用于访问远程的数据库，包括Tra

2016-12-27 09:34:12 1170

原创 Trafodion 创建多Column Families表

默认情况下，Trafodion每张表只有一个HBase的Column Family，名字是”#1”，其好处是减少HFile文件的个数，但数据并没有真正按列存储。Trafodion提供这样一种功能，在建表的时候可以指定创建Multiple column families，表可以拥有两个Column Family，第二个CF叫”cf2”。在HBase中，一个Column Family对于一个HFile，

2016-12-26 09:47:00 809

原创 Trafodion 如何修改客户端最大连接数

Trafodion数据库通过DCS来作为客户端与底层服务的中转站。关于DCS的介绍，请参考我的另外一篇文章“ Trafodion DCS架构介绍”http://blog.csdn.net/post_yuan/article/details/52709838Trafodion相比其他的一些SQL on Hadoop（如Hive、Impala等）产品，多少有一些优势的地方。其中一个比较重要的特性就是，T

2016-12-23 09:45:19 1102

原创 Trafodion数据加载性能测试

在之前写的另外一篇文章“Trafodion 数据加载介绍”中提到，Trafodion数据加载主要有以下四种方式，InsertUpsertUpsert Using LoadLoad从性能上面来看，这四种加载方式是依次递增的，即Load >Upsert Using Load >Upsert >Insert。下面我们就现场验证一下这几种数据加载方式各自的性能，我所使用的集群配置为：

2016-12-15 09:37:59 1693

原创 HBase Shell命令学习

HBase Shell是基于JRuby的，确切地说，它是使用交互式的Ruby Shell，输入命令并快速得到响应。通过命令”hbase shell”进行交互式终端，通过exit或quit退出。[root@cent-1 ~]# hbase shellJava HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprec

2016-12-13 17:28:40 722

原创 HDFS工具DsfAdmin和FsShell

使用HDFS时两个常用工具是多任务工具DfsAdmin和文件系统Shell命令。FsShell Hadoop文件系统Shell命令可以执行其他文件系统中常见的操作，如读取文件、移动文件、创建目录、删除数据等等。在终端上可以通过下面命令，获得Shell命令的详细帮助信息，[hdfs@cent-2 ~]$ hadoop fs -helpUsage: hadoop fs [generic optio

2016-12-13 14:27:31 2314

原创 HBase写数据

当用户向RegionServer发起HTable.put()请求时，其会将请求交给对应的HRegion实例来处理。对应的HRegion首先决定数据是否需要写到由HLog类实现的预定日志（WAL）中。WAL是标准的Hadoop SequenceFile，并且存储了HLogKey实例。这些键包括序列号和实际数据，所以在服务器崩溃时可以回滚未持久化的数据。一旦数据被写入WAL中，数据就被放到Mem

2016-12-13 11:34:52 576

原创 Trafodion表与HBase表的关系

我们已经知道，Trafodion把表映射和存储为HBase表。那么，Trafodion表与HBase有什么区别呢？与常规HBase表相比，Trafodion表又有哪些优势和劣势呢？大致可以概括为以下，优势Trafodon表看起来是带有固定列的常规的结构化SQL表，与Oracle等关系型数据库中的表结构一致。支持关系型数据库里面常见的SQL数据类型，如date,timestamp,int,sm

2016-12-13 09:31:22 891

原创 Linux 小工具---多台机器执行命令或复制文件

今天写了一个小工具，用shell实现从一台机器往其他多台机器复制文件或者在其他多台机器执行相同命令用的。目录结构如下，[root@cent-1 ~]# cd tools/[root@cent-1 tools]# lscopy_files.sh main.sh run_commands.sh servers其中，servers里面维护要执行的节点列表，hostname或ip均可； copy_

2016-12-12 17:31:06 1517

原创 Trafodion 如何升级

如果当前Trafodion中的版本为1.3，然后希望升级到2.0，应该怎么办呢？ Trafodion并不提供专门的升级工具用于将Trafodion版本从一个老的版本升级到新的版本，而是通过重装安装的方式实现。通过官网提供的Installer重新安装便可轻松实现，但是有一个地方需要注意的事：正常的Trafodion安装完在启动Trafodion的时候通常包括如下步骤：sqstartinitia

2016-12-12 15:43:18 625

原创 HBase 行锁概念

在HBase中有一个概念叫“行锁”。我们知道，HBase有一些客户端API，如put()、delete()、checkAndPut()等操作都是独立执行的，这意味着在一个串行方式执行中，对于每一行必须保证行级别的操作是原子性的。 “行锁”的特性保证了只有一个客户端能获取一行数据相应的锁，同时对该行进行修改，其它客户端则需要等到锁释放后才能修改同一行。 “行锁”机制一般是隐式的，当然客户端也可以显

2016-12-12 13:58:41 1070

原创 Trafodion 安装教程

环境操作系统：CentOS release 6.7 (Final)Hadoop版本：CDH 5.4.8节点数：2单节点内存：8G安装包 - Trafodion 服务器安装包 - Trafodion 客户端安装包 - Trafodion 安装程序包

2016-12-12 12:21:39 3418 8

原创 HBase WAL预写日志

HBase的region服务器会将数据保存到内存中，直接有足够多的数据才会将其刷写到硬盘中，这样可以避免创建很多的小文件。存储在内存中的数据具有不稳定性，如果服务器断电那么内存中的数据就会可能丢失。 HBase中使用预写日志(WAL)的方式来解决这一问题：每次更新都会写入日志，只有写入成功才会通知客户端操作成功，然后服务器可以按需自由地批量处理或聚合内存中的数据。下面图展示WSL是怎样和HB

2016-12-12 09:48:08 1803

原创 HBase 负载均衡

HBase有一个特性叫均衡器，默认情况下，均衡器每5分钟执行，通过hbase.balancer.peroid设置。当均衡器启动时，它将尝试均匀分配region到所有regionserver中。启动均衡器后，均衡器首先会确定一个region分配计划用于描述region如何移动，然后通过迭代调用unassign()方法开始移动region。用户可以通过均衡器开关来控制均衡器，使用HBase Sh

2016-12-09 17:07:24 4451

原创 HBase region预拆分

在说明怎样做HBase region预拆分之前，要先介绍一个概念：region热点。什么是region热点？对于拥有很多region的大表来说，大部分region分布并不是均匀的，有些regionserver具有较少的region，有些则具有较多的region。那么即使是使用随机的方式往表写数据，region多的那台服务器的负载也会大于其他的regionserver，这就是region热点。解

2016-12-09 16:37:52 1818

原创 HDFS 简介

HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)，它以文件系统的形式为应用提供海量数据存储服务，具有高容错的特点，它可以部署在廉价的通用硬件上，提供高吞吐率的数据访问。HDFS并不支持标准的UNIX命令如”ls”或”cp”，而是提供一套特有的、基于Hadoop抽象文件系统的API，支持以流的形式访问文件系统中的数据。主要特性支持超大文件 –单个

2016-12-09 10:36:02 862

原创 Hadoop 不用RAID 0的原因

关于什么是RAID 0，请参照另外一篇文章http://blog.csdn.net/post_yuan/article/details/53516127，这里主要总结一下为什么Hadoop不用RAID 0的原因。关于这个问题，如果想了解详细也可参考文章： http://zh.hortonworks.com/blog/why-not-raid-0-its-about-time-and-snowflak

2016-12-08 13:55:18 2731

原创 RAID 常见类型介绍

之前一直听说RAID，但从来没有真正去理解RAID是什么，今天突然想起来看看，就自己写下来帮助记忆和查看。 RAID(Redundent Array of Independent Disk)，意思是独立冗余磁盘阵列，是加州伯克利大学1987年提出，最初目的是为了组合廉价的小磁盘来代替昂贵的大磁盘，同时在磁盘失效的时候能保护数据。RAID可以充分发挥出多块磁盘的优势，可以提升磁盘速度，增大容量，提供

2016-12-08 11:37:08 12060 1

数据源的港湾