hive中partition如何使用

网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partiti...

2013-06-03 11:46:26

阅读数 480

评论数 0

hive的内部表与外部表创建

1.创建表的语句: Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name  [(col_name data_type [COMMENT col_comment], ...)]  [COMMENT table_comment]  [PARTIT...

2013-06-03 10:50:56

阅读数 417

评论数 0

hive安装

http://blog.csdn.net/hguisu/article/details/7282050 hadoop、hbase的安装见前面的文章 下面是hive的安装 1、下载 http://mirror.bit.edu.cn/apache/hive/stable/ Hadoop ...

2013-06-03 10:18:25

阅读数 564

评论数 0

Hive限制

1.更新,事务,索引,不支持,是全表扫描 2.创建表的字段类型和java类型是对应的。不支持日期类型,提供转换为字符串类型的函数。 3.查询语句中,不支持having,可写嵌套的select来解决;group by后只能是表的定义列名,不能像mysql那样可以为查询语句为逻辑处理结果声明的别名...

2013-01-10 09:59:29

阅读数 259

评论数 0

通过学生-课程关系表,熟悉hive语句

1、在hive中创建以下三个表。 create table  student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored a...

2012-12-31 16:24:33

阅读数 408

评论数 0

Hive优化总结

优化时,把hive sql当做mapreduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作...

2012-12-29 17:03:46

阅读数 238

评论数 0

hive join

hive(0.9.0): 1.支持equality joins, outer joins, and left semi joins 2.只支持等值条件 3.支持多表join 原理 hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则...

2012-12-29 16:11:36

阅读数 242

评论数 0

写好Hive 程序的五个提示

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。 有一些大家比较熟悉的优化约定包括:Join...

2012-12-29 16:07:31

阅读数 185

评论数 0

HIVE中的自定义函数

hive默认的函数并不是太完整,以后我们使用的使用肯定需要自己补充一些。 下面这个例子是个简单的测试,关于自定义函数的。 函数代码 package com.example.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; ...

2012-12-29 15:54:28

阅读数 278

评论数 0

hive中的Order By

hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。 这不同的地方也是两者在底层架构区别的体现。 hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstri...

2012-12-29 15:50:32

阅读数 218

评论数 0

hive中的sort by

在hive中不光有order by操作,还有个sort by操作。两者执行的都是排序的操作,但有存在很大的不同。 还是用上次order by的例子来说明。 测试用例 hive> select * from test09; OK 100 tom 200 mary 300 ...

2012-12-29 15:49:27

阅读数 254

评论数 0

hive中的distribute By

hive中的distribute by是控制在map端如何拆分数据给reduce端的。 hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。 对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distr...

2012-12-29 15:47:53

阅读数 323

评论数 0

map和reduce 个数的设定 (Hive优化)经典

一、   控制hive任务中的map数:  1.   通常情况下,作业会通过input的目录产生一个或者多个map任务。  主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过setdfs.block.size;命令查...

2012-12-25 19:51:38

阅读数 354

评论数 0

hive中UDF和UDAF使用说明

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:...

2012-09-20 23:09:22

阅读数 6

评论数 0

Hive的UDF的自定义

当hive为我们提供的UDF无法满足要求的时候,我们可以开发自己的UDF,我们自己的UDF类需要继承org.apache.hadoop.hive.ql.exec.UDF类 并且在类中实现evaluate方法,当我们在hive中使用自定义的UDF的时候,hive会调用类中的evaluate方法来实...

2012-09-20 22:57:25

阅读数 7

评论数 0

hive的UDF 函数

hive的UDF 函数 Hive内部自定义函数UDF HIVE UDF整理(一) 关系运算 等值比较: = 语法:A = B 操作类型: 所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive> sele...

2012-09-20 22:53:18

阅读数 9

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭