漏斗转化率统计实战 &（hive严格模式，本地模式）

最新推荐文章于 2023-09-29 09:01:47 发布

MicoOu

最新推荐文章于 2023-09-29 09:01:47 发布

阅读量1k

点赞数

分类专栏： Hive 文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MicoOu/article/details/103511069

版权

本文介绍了如何使用Hive进行漏斗转化率统计，包括每一步相对于第一步的转化率和每一步相对于上一步的转化率。通过自连接、窗口函数以及设置非严格模式和本地模式来提高查询效率。

摘要由CSDN通过智能技术生成

目录

转化率统计

表名order.txt
字段id, name, pv

1,广告,10000
2,菜单,3000
3,详情,2600
4,购物车,300
5,下单,200
6,支付,190
7,支付ok,189

用到关键技术：
自连接，窗口函数max

前期准备：

create database if not exists hive_order;
use hive_order;
drop table if exists t_order;
create table t_order(id int,name string,pv int) row format delimated fields terminated by “,”;
load data local inpath"/home/hadoopUser/order.txt" into table t_order;
select * from t_order;
desc t_order;

使用严格模式（set hive.mapred.mode = strict;）可以禁止3种类型的查询：
（1）对于分区表，不加分区字段过滤条件，不能执行
（2）对于order by语句，必须使用limit语句。
（3）限制笛卡尔积的查询（join的时候不使用on，而使用where的）

我们要对表进行自连接，所以这里不作严格模式，设置为非严格。
set hive.mapred.mode = nonstrict;（默认undefined）

开启本地模式，对于数据量比较少，执行时间会缩短。
set hive.exec.mode.local.auto=true;(默认为false)

如此一来，对数据量比较小的操作，就可以在本地执行，这样要比提交任务到集群执行效率要快很多。

1. 求每一步相对于第一步的转化率

求出pv的最大值，把最大值作为一列
select a.*,b.bpv from t_order a,(select max(pv) bpv from t_order) b;
或者直接使用max窗口函数：
select *,max(pv) over(order by id) bpv from t_order;
```
id      name	pv		bpv
1       广告    10000   10000
2       菜单    3000    10000
3       详情    2600    10000
4       购物车  300     10000
5       下单 
```

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
漏斗转化率统计实战 &（hive严格模式，本地模式）

目录1. 求每一步相对于第一步的转化率2. 求每一步相对于上一步的转化率转化率统计表名order.txt字段id, name, pv1,广告,100002,菜单,30003,详情,26004,购物车,3005,下单,2006,支付,1907,支付ok,189用到关键技术：自连接，窗口函数max前期准备：create database if not exists h...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。