hive
pizipeng2
这个作者很懒,什么都没留下…
展开
-
hive udaf的编写
介绍 hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用,转载 2016-07-13 10:58:18 · 665 阅读 · 0 评论 -
hive 脚本接受参数
有时候需要向hive脚本中传入参数,以便可以重用脚本; 向脚本中传入参数主要由两种情况: 1、通常是通过shell脚本调度hive脚本的, hive提供了可以直接读取系统变量和环境变量的方法; hive脚本如下所示#test.sqluse pxh;select '${env:month}' as monthfrom pxh.dual;启动脚本如下:#start.sh#!/bin/sh原创 2016-07-28 15:31:39 · 9315 阅读 · 0 评论 -
hive 中的join
Common Join最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成.首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value , 但是在进行p转载 2016-08-18 16:26:57 · 324 阅读 · 0 评论