HADOOP和HIVE
文章平均质量分 81
Forsure
这个作者很懒,什么都没留下…
展开
-
Hive 的扩展特性—自定义脚本、UDF和UDAF介绍
Hive 是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据用户自定义函数: Substr, Trim, 1 – 1转载 2012-05-07 15:26:51 · 1173 阅读 · 0 评论 -
HIVE中join、semi join、outer join举例详解
hive> select * from zz0; OK 111111 222222 888888 Time taken: 0.147 seconds hive> select * zz1; FAILED: Parse Error: line 0:-1 mismatched input '' expecting FROM in from clause hive转载 2012-05-14 15:47:28 · 4839 阅读 · 0 评论 -
如何使用Python为Hadoop编写一个简单的MapReduce程序
转载自:http://asfr.blogbus.com/logs/44208067.html 在这个实例中,我将会向大家介绍如何使用Python 为 Hadoop编写一个简单的MapReduce程序。尽管Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jytho转载 2012-05-07 15:19:26 · 2176 阅读 · 0 评论 -
Hive中实现自定义函数UDF详细过程
Hive的UDF,其实很类似Mysql之类的自定义函数不过它需要用java来编写,而不是用传统的SQL来完成实现一个UDF的步骤如下:实现一个Java Class,继承自UDF打成jar包,并加入到Hive的ClassPath中生成自定义函数,执行select删除刚才创建的临时函数下面这个UDF,是我给hive的array增加的一个函数用来判断array中是转载 2012-05-07 20:33:41 · 1832 阅读 · 0 评论 -
hadoop hive sql(HQL)语法解释
DDL Operations创建表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段dshive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表hive> SHOW TABLES;按正条件(正则表达转载 2012-05-07 20:31:29 · 2389 阅读 · 0 评论 -
举例详解Hive UDAF开发
Hive进行UDAF开发,相对要比UDF复杂一些,不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.hive.serde2.io.DoubleWritable;publi转载 2012-05-07 20:30:10 · 1332 阅读 · 0 评论 -
Hive UDF实现函数MD5
Hive提供了User Defined Functions的开发接口以给使用者扩展。上手比较简单,下面是开发使用一个MD5的例子。JAVA代码:package org.nalang.hive.udf;import java.io.UnsupportedEncodingException;import java.security.MessageDigest;import java转载 2012-05-07 20:27:55 · 10660 阅读 · 0 评论 -
Hive UDF实现分析函数row_number
Oracle的分析函数row_number是十分有用的功能,但是將ETL迁移到Hive中发现没有的功能,我们实现了一个UDF实现了该函数,代码如下:JAVA代码:package org.nalang.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class RowNumber extends UDF {转载 2012-05-07 20:28:34 · 2910 阅读 · 0 评论 -
Hive中UDF和UDAF详细介绍和使用
一、UDF1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Textc)用户提供的 map/reduce 脚本:不管什么语转载 2012-05-07 16:35:35 · 1530 阅读 · 0 评论 -
自动编译并运行mapreduce程序的脚本
为了方便大家编写mapreduce程序,我特地编写了一个脚本,可以直接通过他编译并运行mapreduce程序,用bash awk编写的。使用方法如下1.cd hadoop/ 到hadoop的目录下2.如果是第一次使用脚本,需要新建playground目录,及子目录src。(详细步骤:mkdir playground/ mkdir playground/src)3.然后将代转载 2012-05-07 15:17:29 · 1197 阅读 · 0 评论 -
hbase伪分布式安装详解及错误分析
安装环境:centos6.0+jdk1.6.0_29+hadoop1.0.0+hbase0.90.4已经安装好centos6.0+jdk1.6.0_29+hadoop1.0.0环境1.到官方网站下载好hbase-0.90.4.tar.gz解压hbase安装包到一个可用目录(如:/opt)[html] view plaincopyprint?cd /opt转载 2012-05-16 14:35:54 · 3443 阅读 · 0 评论