HIVE的transform函数的使用

HIVE的transform函数的使用

Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQL

 
  1. SELECT date, count(uid)

  2. FROM xxx

  3. GROUP BY date

但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚本实现该功能,并用TRANSFORM关键字调用

 
  1. SELECT TRANSFORM(date, uid)

  2. FROM xxx

  3. CLUSTER BY date

这是一个类似streaming的功能,但是可以更方便的访问Hive中的数据,也可以把SQL语句和自写脚本整合在一起运行。

简单分析官网上的一个例子

 
  1. FROM (

  2. FROM pv_users

  3. SELECT TRANSFORM(pv_users.userid, pv_users.date)

  4. USING 'map_script'

  5. AS dt, uid

  6. CLUSTER BY dt

  7. ) map_output

  8. INSERT OVERWRITE TABLE pv_users_reduced

  9. SELECT TRANSFORM(map_output.dt, map_output.uid)

  10. USING 'reduce_script'

  11. AS date, count;

这段代码的大致工作流程描述如下:

map_script作为mapper,reduce_script作为reducer。将pv_users表中的useriddate两列作为mapper的输入字段,处理后的输出的前两个字段分别命名为dtuid,并按照dt字段作partition和sort送给reduce阶段处理。reducer的输入字段为dtuid,输出处理后的前两个字段,并命名为datecount,写入到pv_users_reduced表中。

这里有几个细节:

  • mapper和reducer用到的script可以是任何可执行文件。注意如果用到的是本地文件,应当在语句开始前用ADD FILEADD FILES将文件加入进来
  • mapper和reducer的输入输出都是以TAB为分隔符
  • 如果USING ‘script’语句后面没有AS,则Hive默认script的输出中第一个TAB之前的字段为key,后面的部分全部为value。若指定了AS,则严格按照AS后面的字段数输出,例如AS dt, uid,则输出前两个字段并忽略后面的字段。此外,AS语句可以指定数据类型,如AS (date STRING, count INT)。默认都是string类型。
  • CLUSTER BY关键字是DISTRIBUTE BYSORT BY的简写,这两者可以认为对应与Hadoop的partition和sort过程。如果partition和sort的key是不同的,可以使用DISTRIBUTE BYSORT BY分别指定。
  • MAPREDUCE关键字是SELECT TRANSFORM关键字的别名,原文中给出了上面等价代码
     
    1. FROM (

    2. FROM pv_users

    3. MAP pv_users.userid, pv_users.date

    4. USING 'map_script'

    5. AS dt, uid

    6. CLUSTER BY dt

    7. ) map_output

    8. INSERT OVERWRITE TABLE pv_users_reduced

    9. REDUCE map_output.dt, map_output.uid

    10. USING 'reduce_script'

    11. AS date, count;

    因此,原文中特别提醒,MAP并没有强制产生一个map过程的作用,REDUCE同理。只是为了阅读更清晰。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值