sql刷题-计算用户的平均次日留存率

计算用户的平均次日留存率
关键字和函数

关键词 distinct 用于返回唯一不同的值。

DATE_ADD() 函数向日期添加指定的时间间隔。

问题描述

题目:现在运营想要查看用户在某天刷题后第二天还会再来刷题的平均概率。请你取出相应数据。

img

根据示例,你的查询应返回以下结果:

img

示例
drop table if exists `user_profile`;
drop table if  exists `question_practice_detail`;
drop table if  exists `question_detail`;
CREATE TABLE `user_profile` (
`id` int NOT NULL,
`device_id` int NOT NULL,
`gender` varchar(14) NOT NULL,
`age` int ,
`university` varchar(32) NOT NULL,
`gpa` float,
`active_days_within_30` int ,
`question_cnt` int ,
`answer_cnt` int 
);
CREATE TABLE `question_practice_detail` (
`id` int NOT NULL,
`device_id` int NOT NULL,
`question_id`int NOT NULL,
`result` varchar(32) NOT NULL,
`date` date NOT NULL
);
CREATE TABLE `question_detail` (
`id` int NOT NULL,
`question_id`int NOT NULL,
`difficult_level` varchar(32) NOT NULL
);

INSERT INTO user_profile VALUES(1,2138,'male',21,'北京大学',3.4,7,2,12);
INSERT INTO user_profile VALUES(2,3214,'male',null,'复旦大学',4.0,15,5,25);
INSERT INTO user_profile VALUES(3,6543,'female',20,'北京大学',3.2,12,3,30);
INSERT INTO user_profile VALUES(4,2315,'female',23,'浙江大学',3.6,5,1,2);
INSERT INTO user_profile VALUES(5,5432,'male',25,'山东大学',3.8,20,15,70);
INSERT INTO user_profile VALUES(6,2131,'male',28,'山东大学',3.3,15,7,13);
INSERT INTO user_profile VALUES(7,4321,'male',28,'复旦大学',3.6,9,6,52);
INSERT INTO question_practice_detail VALUES(1,2138,111,'wrong','2021-05-03');
INSERT INTO question_practice_detail VALUES(2,3214,112,'wrong','2021-05-09');
INSERT INTO question_practice_detail VALUES(3,3214,113,'wrong','2021-06-15');
INSERT INTO question_practice_detail VALUES(4,6543,111,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(5,2315,115,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(6,2315,116,'right','2021-08-14');
INSERT INTO question_practice_detail VALUES(7,2315,117,'wrong','2021-08-15');
INSERT INTO question_practice_detail VALUES(8,3214,112,'wrong','2021-05-09');
INSERT INTO question_practice_detail VALUES(9,3214,113,'wrong','2021-08-15');
INSERT INTO question_practice_detail VALUES(10,6543,111,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(11,2315,115,'right','2021-08-13');
INSERT INTO question_practice_detail VALUES(12,2315,116,'right','2021-08-14');
INSERT INTO question_practice_detail VALUES(13,2315,117,'wrong','2021-08-15');
INSERT INTO question_practice_detail VALUES(14,3214,112,'wrong','2021-08-16');
INSERT INTO question_practice_detail VALUES(15,3214,113,'wrong','2021-08-18');
INSERT INTO question_practice_detail VALUES(16,6543,111,'right','2021-08-13');
INSERT INTO question_detail VALUES(1,111,'hard');
INSERT INTO question_detail VALUES(2,112,'medium');
INSERT INTO question_detail VALUES(3,113,'easy');
INSERT INTO question_detail VALUES(4,115,'easy');
INSERT INTO question_detail VALUES(5,116,'medium');
INSERT INTO question_detail VALUES(6,117,'easy');
解题
分析

关键词1第二天,如下,然后根据用户device_id来判断用户每个用户第二天有没有刷题。

date_add(date,interval 1 day)

关键词2平均概率,如下

通过关键词一,可以确定,当用户第二天打卡,则第二天会有数据,所以以第二天为分子,第一天为分母即可得到平均概率

实施

步骤一、用于返回每个用户每天唯一的数据

 select distinct device_id, date from question_practice_detail

步骤二、每个用户通过第一天数据和第二天数据做比较,然后使用第二天的数据做分子,第一天的数据做分子得到最后的结果。子查询一定要重命名。

select count(date2) / count(date1) as avg_ret
from (
    select
        distinct qpd.device_id,
        qpd.date as date1,
        uniq_id_date.date as date2
    from question_practice_detail as qpd
    left join(
        select distinct device_id, date
        from question_practice_detail
    ) as uniq_id_date
    on qpd.device_id=uniq_id_date.device_id
        and date_add(qpd.date, interval 1 day)=uniq_id_date.date
) as id_last_next_date
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: hive中计算次日留存率的代码可能长这样: ``` WITH temp_table AS ( SELECT date, user_id, COUNT(DISTINCT event_name) AS event_count FROM events WHERE event_name = 'register' GROUP BY date, user_id ) SELECT retention_date, retention_count / total_count as retention_rate FROM ( SELECT retention_date, retention_count, total_count, total_count - retention_count as churn_count FROM ( SELECT DATE_ADD(temp_table.date, 1) AS retention_date, COUNT(DISTINCT temp_table.user_id) AS retention_count, COUNT(DISTINCT temp_table.user_id) OVER (PARTITION BY temp_table.date) AS total_count FROM temp_table JOIN events ON temp_table.user_id = events.user_id AND temp_table.date = events.date WHERE events.event_name = 'login' ) ) ``` 第一部分是使用temp_table表,统计每个用户每天的注册次。 第二部分是将temp_table和event表进行连接,统计昨天注册的用户今天登陆的次,并计算留存率。 注意:这只是一个示例代码,应该根据您的据结构和需求进行修改。 ### 回答2: 计算次日留存率,即统计用户在某一天登录后,第二天仍然登录的比例,可以使用Hive编写代码来实现。 假设我们有一个用户登录的据表login_data,表结构如下: user_id string login_date string 我们首先需要筛选出每个用户的登录日期和第二天的登录日期,并将结果保存到临时表中。代码如下: CREATE TABLE tmp_table AS SELECT user_id, login_date, lag(login_date) OVER(PARTITION BY user_id ORDER BY login_date ASC) AS next_date FROM login_data; 接下来,我们根据第二天的登录日期是否存在来计算次日留存率。如果第二天没有登录记录,则认为用户次日留存。代码如下: SELECT COUNT(DISTINCT user_id) AS ret_user_count, COUNT(DISTINCT CASE WHEN next_date IS NULL THEN user_id ELSE NULL END) AS non_ret_user_count, COUNT(DISTINCT CASE WHEN next_date IS NOT NULL THEN user_id ELSE NULL END) AS total_user_count, COUNT(DISTINCT CASE WHEN next_date IS NOT NULL AND login_date = next_date THEN user_id ELSE NULL END) AS ret_user_count FROM tmp_table GROUP BY next_date; 上述代码中,ret_user_count表示次日留存用户,non_ret_user_count表示未次日留存用户,total_user_count表示总用户。 最后,我们可以计算次日留存率,即次日留存用户除以总用户。代码如下: SELECT ret_user_count / total_user_count AS retention_rate FROM ( SELECT COUNT(DISTINCT CASE WHEN next_date IS NOT NULL AND login_date = next_date THEN user_id ELSE NULL END) AS ret_user_count, COUNT(DISTINCT CASE WHEN next_date IS NOT NULL THEN user_id ELSE NULL END) AS total_user_count FROM tmp_table GROUP BY next_date ); ### 回答3: 在Hive中计算次日留存率,我们可以使用Hive的内置函和语法来实现。 首先,我们需要确保用户访问据已经导入到Hive表中。假设我们有一个名为user_logs的表,其中包含用户ID(user_id)和访问日期(visit_date)的字段。 接下来,我们可以使用Hive的语法来编写查询,计算次日留存率。以下是一个可能的实现示例: ```sql -- 选择当天访问过的用户 SELECT DISTINCT user_id FROM user_logs WHERE visit_date = '当前日期'; -- 选择次日仍然访问过的用户 SELECT DISTINCT l.user_id FROM user_logs l JOIN ( -- 当天访问过的用户 SELECT DISTINCT user_id FROM user_logs WHERE visit_date = '当前日期' ) d ON l.user_id = d.user_id WHERE l.visit_date = '次日日期'; -- 计算次日留存率 SELECT COUNT(DISTINCT l.user_id) * 100.0 / COUNT(DISTINCT d.user_id) AS retention_rate FROM user_logs l JOIN ( -- 当天访问过的用户 SELECT DISTINCT user_id FROM user_logs WHERE visit_date = '当前日期' ) d ON l.user_id = d.user_id WHERE l.visit_date = '次日日期'; ``` 在上面的代码中,我们先选择当天访问过的用户,然后通过将用户ID与次日仍然访问过的用户ID进行匹配,筛选出次日留存的用户。最后,通过计算次日留存用户占当天访问用户的比例,得到次日留存率。 注意,代码中的"当前日期"和"次日日期"应替换为具体的日期,以便计算相应日期的次日留存率

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值