自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Shell脚本执行Hive语句

一、环境 1、Hadoop 0.20.2 2、Hive 0.5 3、操作系统 Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 二、步骤 1、直接贴上脚本吧 #!/bin/bash#give the params: name value tablenameif [ $# -eq 3 ]then name=

2010-07-29 17:29:00 15586

原创 关于Hive建表需要注意的问题

一、环境 1、Hadoop 0.20.2 2、Hive 0.5.0 3、JDK 1.6 4、操作系统:Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 二、注意事项 1、关于数字类型支持的位数 类型 支持数字位数 tinyint

2010-07-26 19:33:00 7020

原创 Hive-0.5中SerDe概述

一、背景 1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。 2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。 3、Hive可以方便的将数据加载到表中而不需要对数据进行转换,这样在处理海量数据时可以节省大量的时间。 二、技术细节 1、SerDe是Seria

2010-07-21 21:39:00 11990

原创 Hive0.5中Partition简述

一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。 二、技术细节 1、一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 2、表和列名不

2010-07-21 16:38:00 5030

原创 Hive-0.5中UDF和UDAF简述

一、UDF 1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text c)用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据 d)用户自定义函数: Substr, Trim

2010-07-21 16:30:00 26343 1

原创 Hive的JDBC连接

一、环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6 二、使用目的 1、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应用。 2、因此,就产生的JDBC连接的方式,当然还有其他的连接方式,比如ODBC等。 三、连接的配置 1、修改hive-site.xml

2010-07-21 14:38:00 8120 1

原创 HBase的条件查询

一、环境HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6二、需求背景      在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,

2010-07-21 11:10:00 15882 3

原创 配置HBase使用Map/Reduce

1、HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6 2、如果想通过MR对hbase进行一些操作,首先是需要做一些配置内容的,配置的流程如下: a、默认安装完成了hadoop和hbase b、首先引入环境变量(修改/etc/profile文件,在文件末尾追加下面内容): # set java environmentexport JAVA_HOME=/usr/java/jdk1.6.0_20export JRE_

2010-07-21 10:41:00 4513

原创 HBase中关于中文的处理

1、HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6 2、在HBase中创建了表,如果想通过控制台使用命令写入含有汉字的数据,录入是不成功的。 3、如果想对汉字进行录入,可以通过代码实现,这里我使用的是java,代码如下: /** * 向指定的表插入单个Put对象 * * @param tablename * @param conf * @throws Exception */

2010-07-21 10:23:00 23465 2

原创 关于Hadoop结合RDBMS应用的一些思考

      最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下。   1、为什么要用Hadoop 这个在网上已近有很多的人说过这个问题,我在这里就不多述了。但是我想说下,对于一个工具而言,只有最合适的应用场景没有最牛的工具。hadoop对我而言也只是一个工具,所以,更多的时候我是从业务角度出发去考虑hadoop能给我带来什么。   2、RDBMS? R

2010-07-20 17:56:00 6801 3

原创 Map/Reduce使用杂记

一、硬件环境 1、CPU:Intel(R) Core(TM)2 Duo CPU     E4500  @ 2.20GHz 2、内存:2G 3、硬盘:500G 4、网卡:百兆电卡 5、网络:局域网络 6、集群数量:10台机器,1个master,10个slaves(master也做slave了!呵呵) 二、关于同时运行的map和reduce数量。 1、同时运行的数量通过mapred.tasktracker.map.tasks.maximum和mapred.tas

2010-07-14 14:44:00 2586

原创 Hive安装手册

一、安装准备 1、下载hive-0.5.0-bin版本:http://apache.etoak.com/hadoop/hive/hive-0.5.0/ 2、JDK版本:jdk-6u20-linux-i586.bin 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本:

2010-07-10 10:09:00 2295 2

原创 Hive使用杂记

一、环境描述 1、Hadoop版本0.20.2,操作系统Linux、JDK 1.6 2、Hive版本0.5.0 二、元数据的存储 1、如果之前进行了建表操作,但是后来对hdfs format后,通过Hive的cli来输入指令show tables查看表,表结构依然存在,但是hdfs文件系统中对应的目录却不存在。那是因为hive的元数据还存在原因导致。元数据默认存放在metastore_db中,删除这个文件夹,再使用show tables命令来查看,表结构自然不存在。由此可以看出me

2010-07-08 16:31:00 6447

原创 Hadoop分布式安装

一、安装准备 1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/ 2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6) 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器,192.168.3

2010-07-07 11:04:00 5083 5

原创 HBase分布式安装手册

一、安装准备 1、下载HBASE 0.20.5版本:http://www.apache.org/dist/hbase/hbase-0.20.5/ 2、JDK版本:jdk-6u20-linux-i586.bin 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本:    

2010-07-07 09:25:00 7124 7

原创 Zookeeper分布式安装手册

一、安装准备1、下载zookeeper-3.3.1,地址:http://www.apache.org/dist/hadoop/zookeeper/zookeeper-3.3.1/2、JDK版本:jdk-6u20-linux-i586.bin3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux4、默认前提是安装完hadoop 0.20.2版本:    192.

2010-07-07 09:10:00 2587 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除