![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 76
dajuezhao
这个作者很懒,什么都没留下…
展开
-
Hive使用杂记
一、环境描述 1、Hadoop版本0.20.2,操作系统Linux、JDK 1.6 2、Hive版本0.5.0 二、元数据的存储 1、如果之前进行了建表操作,但是后来对hdfs format后,通过Hive的cli来输入指令show tables查看表,表结构依然存在,但是hdfs文件系统中对应的目录却不存在。那是因为hive的元数据还存在原因导致。元数据默认存放在metastore_db中,删除这个文件夹,再使用show tables命令来查看,表结构自然不存在。由此可以看出me原创 2010-07-08 16:31:00 · 6438 阅读 · 0 评论 -
Hive安装手册
一、安装准备 1、下载hive-0.5.0-bin版本:http://apache.etoak.com/hadoop/hive/hive-0.5.0/ 2、JDK版本:jdk-6u20-linux-i586.bin 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本:原创 2010-07-10 10:09:00 · 2287 阅读 · 2 评论 -
Hive-0.5中SerDe概述
一、背景 1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。 2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。 3、Hive可以方便的将数据加载到表中而不需要对数据进行转换,这样在处理海量数据时可以节省大量的时间。 二、技术细节 1、SerDe是Seria原创 2010-07-21 21:39:00 · 11940 阅读 · 0 评论 -
Hive0.5中Partition简述
一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。 二、技术细节 1、一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 2、表和列名不原创 2010-07-21 16:38:00 · 4994 阅读 · 0 评论 -
Hive的JDBC连接
一、环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6 二、使用目的 1、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应用。 2、因此,就产生的JDBC连接的方式,当然还有其他的连接方式,比如ODBC等。 三、连接的配置 1、修改hive-site.xml原创 2010-07-21 14:38:00 · 8101 阅读 · 1 评论 -
Hive-0.5中UDF和UDAF简述
一、UDF 1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text c)用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据 d)用户自定义函数: Substr, Trim原创 2010-07-21 16:30:00 · 26291 阅读 · 1 评论 -
关于Hive建表需要注意的问题
一、环境 1、Hadoop 0.20.2 2、Hive 0.5.0 3、JDK 1.6 4、操作系统:Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 二、注意事项 1、关于数字类型支持的位数 类型 支持数字位数 tinyint原创 2010-07-26 19:33:00 · 7005 阅读 · 0 评论 -
Shell脚本执行Hive语句
一、环境 1、Hadoop 0.20.2 2、Hive 0.5 3、操作系统 Linux m131 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 二、步骤 1、直接贴上脚本吧 #!/bin/bash#give the params: name value tablenameif [ $# -eq 3 ]then name=原创 2010-07-29 17:29:00 · 15552 阅读 · 0 评论