Hive top统计

最新推荐文章于 2024-05-19 23:10:15 发布

taoyuanforrest

最新推荐文章于 2024-05-19 23:10:15 发布

阅读量3.7k

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/just_lion/article/details/45043567

版权

Hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

需求: 用户访问web的top统计，比如用户1访问的top 3 web: web1, web2, web3

1) 准备测试数据/home/hadoop/hive-1.1.0/test/web.txt：

user1,web1

user1,web2

user1,web2

user1,web3

user1,web3

user1,web3

user1,web4

user1,web4

user1,web4

user1,web4

user2,web1

user2,web2

user2,web3

user2,web3

2) 编写UDF做rank排名

在/home/hadoop/hive-1.1.0/test/java下创建package目录com/example/hive/udf，并在该目录下创建Rank.java，内容如下：

package com.example.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public final class Rank extends UDF{

private int counter;

private Stringlast_key;

public intevaluate(final String key){

if ( !key.equalsIgnoreCase(this.last_key)) {

this.counter= 0;

this.last_key= key;

}

return this.counter++;

}

}

在/home/hadoop/hive-1.1.0/test/java下

执行javac –cp .:/home/hadoop/hive-1.1.0/lib/* com/example/hive/udf/Rank.java进行编译，

执行jar –cvf Rank.jar com/example/hive/udf/Rank.class 打jar包

在hive下加载udf:

3) 建库建表加载数据：

4) 编写hql，统计每个用户top3的web

SELECT user, concat_ws(',',collect_set(web)) as topweb
FROM(
SELECT *
FROM
(
   SELECT *,rank(user) as rank
   FROM(
       SELECT user,web,sum
       FROM(
           SELECT user,web,count(1) as sum from web group by user,web
       )A
       DISTRIBUTE BY user
       SORT BY user,sum desc
   )B
)C
WHERE rank<3
ORDER BY user,rank
)D
GROUP BY user

执行结果如下：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive top统计

需求: 用户访问web的top统计，比如用户1访问的top 3 web: web1, web2, web31) 准备测试数据/home/hadoop/hive-1.1.0/test/web.txt：user1,web1user1,web2user1,web2user1,web3user1,web3user1,web3user1,web4user1,we
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。