2010年07月_dajuezhao

原创 Shell脚本执行Hive语句

一、环境 1、Hadoop 0.20.2 2、Hive 0.5 3、操作系统 Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 二、步骤 1、直接贴上脚本吧 #!/bin/bash#give the params: name value tablenameif [ $# -eq 3 ]then name=

2010-07-29 17:29:00 15586

原创关于Hive建表需要注意的问题

一、环境 1、Hadoop 0.20.2 2、Hive 0.5.0 3、JDK 1.6 4、操作系统：Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 二、注意事项 1、关于数字类型支持的位数类型支持数字位数 tinyint

2010-07-26 19:33:00 7020

原创 Hive-0.5中SerDe概述

一、背景 1、当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；接收方则需要把字节序列恢复为对象，称为对象的反序列化。 2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。 3、Hive可以方便的将数据加载到表中而不需要对数据进行转换，这样在处理海量数据时可以节省大量的时间。二、技术细节 1、SerDe是Seria

2010-07-21 21:39:00 11990

原创 Hive0.5中Partition简述

一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。二、技术细节 1、一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。 2、表和列名不

2010-07-21 16:38:00 5030

原创 Hive-0.5中UDF和UDAF简述

一、UDF 1、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括： a）文件格式：Text File，Sequence File b）内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text c）用户提供的 map/reduce 脚本：不管什么语言，利用 stdin/stdout 传输数据 d）用户自定义函数: Substr, Trim

2010-07-21 16:30:00 26343 1

原创 Hive的JDBC连接

一、环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6 二、使用目的 1、一般来说我们对hive的操作都是通过cli来进行，也就是Linux的控制台，但是，这样做本质上是每个连接都存放一个元数据，各个之间都不相同，所以，对于这样的模式我建议是用来做一些测试比较合适，并不适合做产品的开发和应用。 2、因此，就产生的JDBC连接的方式，当然还有其他的连接方式，比如ODBC等。三、连接的配置 1、修改hive-site.xml

2010-07-21 14:38:00 8120 1

原创 HBase的条件查询

一、环境HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.6二、需求背景在HBase中，进行条件查询，很多的文件都说过，但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索，

2010-07-21 11:10:00 15882 3

原创配置HBase使用Map/Reduce

1、HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.6 2、如果想通过MR对hbase进行一些操作，首先是需要做一些配置内容的，配置的流程如下： a、默认安装完成了hadoop和hbase b、首先引入环境变量(修改/etc/profile文件，在文件末尾追加下面内容)： # set java environmentexport JAVA_HOME=/usr/java/jdk1.6.0_20export JRE_

2010-07-21 10:41:00 4513

原创 HBase中关于中文的处理

1、HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.6 2、在HBase中创建了表，如果想通过控制台使用命令写入含有汉字的数据，录入是不成功的。 3、如果想对汉字进行录入，可以通过代码实现，这里我使用的是java，代码如下： /** * 向指定的表插入单个Put对象 * * @param tablename * @param conf * @throws Exception */

2010-07-21 10:23:00 23465 2

原创关于Hadoop结合RDBMS应用的一些思考

最近一段时间一直在从事和hadoop相关的工作，主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间，我对于RDBMS和Hadoop的结合应用有了一些自己的看法，写出来大家共同探讨一下。 1、为什么要用Hadoop 这个在网上已近有很多的人说过这个问题，我在这里就不多述了。但是我想说下，对于一个工具而言，只有最合适的应用场景没有最牛的工具。hadoop对我而言也只是一个工具，所以，更多的时候我是从业务角度出发去考虑hadoop能给我带来什么。 2、RDBMS？ R

2010-07-20 17:56:00 6801 3

原创 Map/Reduce使用杂记

一、硬件环境 1、CPU：Intel(R) Core(TM)2 Duo CPU E4500 @ 2.20GHz 2、内存：2G 3、硬盘：500G 4、网卡：百兆电卡 5、网络：局域网络 6、集群数量：10台机器，1个master，10个slaves（master也做slave了！呵呵）二、关于同时运行的map和reduce数量。 1、同时运行的数量通过mapred.tasktracker.map.tasks.maximum和mapred.tas

2010-07-14 14:44:00 2586

原创 Hive安装手册

一、安装准备 1、下载hive-0.5.0-bin版本：http://apache.etoak.com/hadoop/hive/hive-0.5.0/ 2、JDK版本：jdk-6u20-linux-i586.bin 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本：

2010-07-10 10:09:00 2295 2

原创 Hive使用杂记

一、环境描述 1、Hadoop版本0.20.2，操作系统Linux、JDK 1.6 2、Hive版本0.5.0 二、元数据的存储 1、如果之前进行了建表操作，但是后来对hdfs format后，通过Hive的cli来输入指令show tables查看表，表结构依然存在，但是hdfs文件系统中对应的目录却不存在。那是因为hive的元数据还存在原因导致。元数据默认存放在metastore_db中，删除这个文件夹，再使用show tables命令来查看，表结构自然不存在。由此可以看出me

2010-07-08 16:31:00 6447

原创 Hadoop分布式安装

一、安装准备 1、下载hadoop 0.20.2，地址：http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/ 2、JDK版本：jdk-6u20-linux-i586.bin （必须是1.6） 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器，192.168.3

2010-07-07 11:04:00 5083 5

原创 HBase分布式安装手册

一、安装准备 1、下载HBASE 0.20.5版本：http://www.apache.org/dist/hbase/hbase-0.20.5/ 2、JDK版本：jdk-6u20-linux-i586.bin 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本：

2010-07-07 09:25:00 7124 7

原创 Zookeeper分布式安装手册

一、安装准备1、下载zookeeper-3.3.1，地址：http://www.apache.org/dist/hadoop/zookeeper/zookeeper-3.3.1/2、JDK版本：jdk-6u20-linux-i586.bin3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux4、默认前提是安装完hadoop 0.20.2版本： 192.

2010-07-07 09:10:00 2587 2

dajuezhao的专栏