Hive数仓操作(十五)

Hive 开窗函数

Hive窗口函数是一种特殊的函数,允许用户在查询中对一组行进行计算,而不仅仅是单独的行。窗口函数可以在 SQL 查询中进行聚合、排名、累积计算等。这使得窗口函数在数据分析和报告生成中非常有用。

窗口函数的基本组成部分

  1. 函数类型:如 ROW_NUMBER(), RANK(), DENSE_RANK(), SUM(), AVG() 等。
  2. OVER 子句:定义窗口的范围和分区,用于指定在哪些行上应用窗口函数。

窗口边界标识符

  1. CURRENT ROW:

    • 表示窗口的当前行。通常用于窗口的结束范围。
  2. n PRECEDING:

    • 表示当前行之前的n行。例如,ROWS BETWEEN 1 PRECEDING AND CURRENT ROW 表示从当前行向上看一行到当前行。
  3. n FOLLOWING:

    • 表示当前行之后的n行。例如,ROWS BETWEEN CURRENT ROW AND 2 FOLLOWING 表示从当前行到当前行的后两行。
  4. UNBOUNDED:

    • 表示没有边界,通常用于定义窗口的起点或终点。
  5. UNBOUNDED PRECEDING:

    • 表示从窗口的起点开始,不限行数。
  6. UNBOUNDED FOLLOWING:

    • 表示到窗口的终点结束,不限行数。

窗口边界函数

  1. LAG(col, n):

    • 这个函数用于获取当前行的前n行中的指定列的值。它可以用于比较当前行与前几行的数据。
    SELECT 
        employee_id, 
        salary, 
        LAG(salary, 1) OVER (ORDER BY employee_id) AS previous_salary
    FROM 
        employees;
    

    这个示例显示了每个员工的当前工资和前一个员工的工资。

  2. LEAD(col, n):

    • 这个函数用于获取当前行的后n行中的指定列的值。与 LAG 类似,但它是向下查找。
    SELECT 
        employee_id, 
        salary, 
        LEAD(salary, 1) OVER (ORDER BY employee_id) AS next_salary
    FROM 
        employees;
    

    这个示例显示了每个员工的当前工资和下一个员工的工资。

示例数据集

假设我们有一个名为 business 的表,内容如下:

nameorderdatecost
Alice2017-04-01100
Bob2017-04-05150
Alice2017-04-10200
Charlie2017-05-01300
Bob2017-05-10100
Alice2017-05-15250
Charlie2017-06-01400

SQL 查询运行结果

1. 查询在2017年4月份购买过的顾客及总人数

SELECT name, COUNT(*) OVER() 
FROM business
WHERE SUBSTRING(orderdate, 1, 7) = '2017-04';

结果:

nameCOUNT(*)
Alice3
Bob3
Alice3
2. 查询顾客的购买明细及月购买总额

顾客购买明细及购买总额:

SELECT name, orderdate, cost, SUM(cost) OVER() 
FROM business;

结果:

nameorderdatecostSUM(cost)
Alice2017-04-011001300
Bob2017-04-051501300
Alice2017-04-102001300
Charlie2017-05-013001300
Bob2017-05-101001300
Alice2017-05-152501300
Charlie2017-06-014001300

明细及月购买总额:

SELECT name, orderdate, cost, SUM(cost) OVER(PARTITION BY MONTH(orderdate)) 
FROM business;

结果:

nameorderdatecostSUM(cost)
Alice2017-04-01100300
Bob2017-04-05150300
Alice2017-04-10200300
Charlie2017-05-01300700
Bob2017-05-10100700
Alice2017-05-15250700
Charlie2017-06-01400400

顾客购买明细及顾客购买总额:

SELECT name, orderdate, cost, SUM(cost) OVER(PARTITION BY name) 
FROM business;

结果:

nameorderdatecostSUM(cost)
Alice2017-04-01100550
Bob2017-04-05150250
Alice2017-04-10200550
Charlie2017-05-01300700
Bob2017-05-10100250
Alice2017-05-15250550
Charlie2017-06-01400400

顾客购买明细及顾客月购买总额:

SELECT name, orderdate, cost, SUM(cost) OVER(PARTITION BY name, MONTH(orderdate)) 
FROM business;

结果:

nameorderdatecostSUM(cost)
Alice2017-04-01100300
Bob2017-04-05150150
Alice2017-04-10200300
Charlie2017-05-01300300
Bob2017-05-10100100
Alice2017-05-15250250
Charlie2017-06-01400400
3. 按照日期进行累加

按照日期逐步累加购买总额

SELECT name, orderdate, cost,
SUM(cost) OVER(PARTITION BY name ORDER BY orderdate) 
FROM business;

方法2(边界从起点到当前行):

SELECT name, orderdate, cost,
SUM(cost) OVER(PARTITION BY name ORDER BY orderdate ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS sample4
FROM business;

结果:

nameorderdatecostSUM(cost)
Alice2017-04-01100100
Alice2017-04-10200300
Alice2017-05-15250550
Bob2017-04-05150150
Bob2017-05-10100250
Charlie2017-05-01300300
Charlie2017-06-01400700

当前行和前面一行的聚合:

SELECT name, orderdate, cost,
SUM(cost) OVER(PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND CURRENT ROW) AS sample5
FROM business;

结果:

nameorderdatecostsample5
Alice2017-04-01100100
Alice2017-04-10200300
Alice2017-05-15250450
Bob2017-04-05150150
Bob2017-05-10100250
Charlie2017-05-01300300
Charlie2017-06-01400400

当前行和前后各一行的聚合:

SELECT name, orderdate, cost,
SUM(cost) OVER(PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING) AS sample6
FROM business;

结果:

nameorderdatecostsample6
Alice2017-04-01100300
Alice2017-04-10200550
Alice2017-05-15250250
Bob2017-04-05150250
Bob2017-05-10100100
Charlie2017-05-01300700
Charlie2017-06-01400400

当前行及后面所有行:

SELECT name, orderdate, cost,
SUM(cost) OVER(PARTITION BY name ORDER BY orderdate ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS sample7
FROM business;

结果:

nameorderdatecostsample7
Alice2017-04-01100550
Alice2017-04-10200250
Alice2017-05-15250250
Bob2017-04-05150100
Bob2017-05-10100100
Charlie2017-05-01300400
Charlie2017-06-01400400
4. 查询顾客上次的购买时间

使用 LAG 函数:

SELECT name, orderdate, cost,
LAG(orderdate, 1) OVER(PARTITION BY name ORDER BY orderdate) AS last_purchase_date
FROM business;

结果:

nameorderdatecostlast_purchase_date
Alice2017-04-01100NULL
Alice2017-04-102002017-04-01
Alice2017-05-152502017-04-10
Bob2017-04-05150NULL
Bob2017-05-101002017-04-05
Charlie2017-05-01300NULL
Charlie2017-06-014002017-05-01
Hadoop Hive数仓实战项目是基于HadoopHive技术的数据仓库项目。在这个项目中,使用Hadoop集群来存储和处理大规模的数据,并使用Hive作为数据仓库的查询和分析工具。 在项目中,首先需要添加一个hadoop用户组,并创建一个hadoop用户,并设置用户密码。然后,切换到hadoop用户,并启动Hive。通过Hive,可以执行一系列的命令,如展示数据库、退出等操作。 引用中提到,Hive建立在Hadoop之上,具有与Hadoop相同的可扩展性,可以轻松应对大规模的数据处理需求。这意味着Hadoop Hive数仓实战项目可以处理大规模的数据,并能够支持超过1000个节点的Hadoop集群。 另外,引用中提到了一些配置文件的重要性,如hive-site.xml和hive-default.xml,它们可以通过设置-hiveconf参数来进行配置。 综上所述,Hadoop Hive数仓实战项目是一个基于HadoopHive技术的大规模数据仓库项目,可以通过Hive进行数据查询和分析,并具有与Hadoop相同的可扩展性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之3.数据仓库工具Hive基础](https://blog.csdn.net/CUFEECR/article/details/121189073)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值