hive-分析函数 LAG、LEAD、FIRST_VALUE和LAST_VALUE OVER(PARTITION BY order by) 的使用

本文详细探讨了OVER(PARTITION BY ORDER BY)函数在SQL中的实际用法,包括LAG(), LEAD(), FIRST_VALUE(), LAST_VALUE()等分析函数在处理cookie数据上的案例。通过实例解析,展示了如何根据时间顺序获取前后行值以及窗口中的首尾值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

OVER(PARTITION BY order by)函数 的其它用法,可查看博文
https://blog.csdn.net/qq_41712271/article/details/109224538

创建表和数据

cookie1,2015-04-10 10:00:02,url2
cookie1,2015-04-10 10:00:00,url1
cookie1,2015-04-10 10:03:04,1url3
cookie1,2015-04-10 10:50:05,url6
cookie1,2015-04-10 11:00:00,url7
cookie1,2015-04-10 10:10:00,url4
cookie1,2015-04-10 10:50:01,url5
cookie2,2015-04-10 10:00:02,url22
cookie2,2015-04-10 10:00:00,url11
cookie2,2015-04-10 10:03:04,1url33
cookie2,2015-04-10 10:50:05,url66
cookie2,2015-04-10 11:00:00,url77
cookie2,2015-04-10 10:10:00,url44
cookie2,2015-04-10 10:50:01,url55
use cookie;
drop table if exists cookie4;
create table cookie4(cookieid string, createtime string, url string) 
row format delimited fields terminated by ',';
load data local inpath "/home/hadoop/cookie4.txt" into table cookie4;
select * from cookie4;


LAG()窗口函数返回分区中当前行之前行(可以指定第几行)的值。 如果没有行,则返回null

LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值

第一个参数为列名,
第二个参数为往上第n行(可选,默认为1),
第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)

查询语句

select 
  cookieid, 
  createtime, 
  url, 
  row_number() over (partition by cookieid order by createtime) as rn, 
  LAG(createtime,1,'1970-01-01 00:00:00') over (partition by cookieid order by createtime) as last_1_time, 
  LAG(createtime,2) over (partition by cookieid order by createtime) as last_2_time 
from cookie.cookie4;

查询结果

结果说明

last_1_time: 指定了往上第1行的值,default为'1970-01-01 00:00:00'  
        cookie1第一行,往上1行为NULL,因此取默认值 1970-01-01 00:00:00
        cookie1第三行,往上1行值为第二行值,2015-04-10 10:00:02
        cookie1第六行,往上1行值为第五行值,2015-04-10 10:50:01
last_2_time: 指定了往上第2行的值,为指定默认值
        cookie1第一行,往上2行为NULL
        cookie1第二行,往上2行为NULL
        cookie1第四行,往上2行为第二行值,2015-04-10 10:00:02
        cookie1第七行,往上2行为第五行值,2015-04-10 10:50:01

 

LEAD()窗口函数返回分区中当前行后面行(可以指定第几行)的值。 如果没有行,则返回null。

与LAG相反

LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值

第一个参数为列名,
第二个参数为往下第n行(可选,默认为1),
第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)

查询语句

select 
  cookieid, 
  createtime, 
  url, 
  row_number() over (partition by cookieid order by createtime) as rn, 
  LEAD(createtime,1,'1970-01-01 00:00:00') over (partition by cookieid order by createtime) as next_1_time, 
  LEAD(createtime,2) over (partition by cookieid order by createtime) as next_2_time 
from cookie.cookie4;

查询结果

结果说明

--逻辑与LAG一样,只不过LAG是往上,LEAD是往下。


FIRST_VALUE窗口函数返回相对于窗口中第一行的指定列的值。

查询语句

select 
  cookieid, 
  createtime, 
  url, 
  row_number() over (partition by cookieid order by createtime) as rn, 
  first_value(url) over (partition by cookieid order by createtime) as first1 
from cookie.cookie4;

查询结果

 

LAST_VALUE窗口函数返回相对于窗口中最后一行的指定列的值。

查询语句

select 
  cookieid, 
  createtime, 
  url, 
  row_number() over (partition by cookieid order by createtime) as rn,
  last_value(url) over (partition by cookieid order by createtime rows between current row and unbounded following) as last1 
from cookie.cookie4

查询结果

 

提示:在使用分析函数的过程中,要特别注意ORDER BY子句,用的不恰当,统计出的结果就不是你所期望的。

 

Hive开窗函数是一种用于在查询结果中执行聚合计算的函数。它们可以在分组的数据上执行计算,并返回结果集中的每一行的聚合值。开窗函数可以使用PARTITION BY子句对数据进行分组,并使用ORDER BY子句对数据进行排序。然后,可以在开窗函数内部使用聚合函数(如SUM、AVG、MAX、MIN、COUNT)对每个分组的数据进行计算。\[2\] 下面是一个使用Hive开窗函数的示例: ``` SELECT user_id, create_date, LAG(create_date, 1, '0000-00-00') OVER (PARTITION BY user_id) AS lag_date, LEAD(create_date, 1, '9999-99-99') OVER (PARTITION BY user_id) AS lead_date, FIRST_VALUE(create_date) OVER (PARTITION BY user_id) AS first_date, LAST_VALUE(create_date) OVER (PARTITION BY user_id) AS last_date FROM order_info; ``` 在这个示例中,我们使用LAGLEADFIRST_VALUELAST_VALUE函数来计算每个用户的前一天日期、后一天日期、第一个日期最后一个日期。这些函数在每个用户分组内进行计算,并返回结果集中的每一行的相应值。\[2\] 除了开窗函数Hive还提供了其他函数,如NVL函数CASE WHEN THEN ELSE END函数。NVL函数用于处理空值,可以将空值替换为指定的默认值。CASE WHEN THEN ELSE END函数类似于C语言中的case语句,用于根据条件对字段值进行判断处理。\[1\]\[3\] #### 引用[.reference_title] - *1* *3* [Hive——Hive常用内置函数总结](https://blog.csdn.net/weixin_44606952/article/details/127929532)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [HIVE函数汇总--开窗函数篇](https://blog.csdn.net/weixin_43935266/article/details/122307605)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值