Hive的Transform功能

最新推荐文章于 2020-03-19 08:12:39 发布

weixin_30532759

最新推荐文章于 2020-03-19 08:12:39 发布

阅读量52

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/camelroyu/p/7877655.html

版权

官网的demo：

FROM (
    FROM pv_users
    SELECT TRANSFORM(pv_users.userid, pv_users.date)
    USING 'map_script'
    AS dt, uid
    CLUSTER BY dt
) map_output

INSERT OVERWRITE TABLE pv_users_reduced
SELECT TRANSFORM(map_output.dt, map_output.uid)
USING 'reduce_script'
AS date, count;

使用MAP和REDUCE关键字是SELECT TRANSFORM关键字的别名，下面的等价代码阅读跟清洗一点：

FROM (
    FROM pv_users
    MAP pv_users.userid, pv_users.date
    USING 'map_script'
    AS dt, uid
    CLUSTER BY dt
) map_output

INSERT OVERWRITE TABLE pv_users_reduced
REDUCE map_output.dt, map_output.uid
USING 'reduce_script'
AS date, count;

MAP中，SELECT TRANSFORM() 等价于关键字MAP

REDUCE中， SELECT TRANSFORM() 等价于关键字 REDUCE ;

CLUSTER BY关键字是DISTRIBUTE BY和SORT BY的简写，这两者可以认为对应与Hadoop的partition和sort过程。如果partition和sort的key是不同的，可以使用DISTRIBUTE BY和SORT BY分别指定。例如： distribute by a.user_id sort by a.user_id,a.begintime （同一个user_id的记录行都在同一个map中，并且按照begintime升序排列，每一个map中是同一个用户的时间序列轨迹）；

转载于:https://www.cnblogs.com/camelroyu/p/7877655.html

weixin_30532759

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive的Transform功能

官网的demo：FROM ( FROM pv_users SELECT TRANSFORM(pv_users.userid, pv_users.date) USING 'map_script' AS dt, uid CLUSTER BY dt) map_outputINSERT OVERWRITE TABLE pv_users_re...
复制链接

扫一扫