SQL解惑 - 谜题2

一、谜题描述

创建一个记录雇员缺勤率的数据库。使用的表结构如下:Absenteeism
主键:PRIMARY KEY (emp_id, absent_date)

字段名字段类型字段中文名字段描述
emp_idINTERGER雇员id-
absent_dateSTRING缺勤日期-
reason_codeSTRING缺勤原因-
severity_pointsINTEGER严重性计分对缺勤行为进行处罚性计分

如果雇员在一年的时间内严重性计分累计达到40,就自动将该雇员解雇。如果雇员连续缺勤超过一天,就视为长病假,而不是普通的缺勤。这时第二天、第三天和以后的日子中都不会统计该股元的严重性分数,这些天也不算做缺勤。

二、分析

步骤1:将雇员连续缺勤记录的严重性计分置为0;
步骤2:找出一年内严重性计分累计达到40的雇员;
需要用到的关联表:
雇员表:Personnel

字段名字段类型字段中文名字段描述
emp_idINTERGER雇员id雇员唯一标识
emp_nameSTRING雇员名字-

日期维度表:Calendar

字段名字段类型字段中文名字段描述
dateSTRING日期唯一键
date_typeSTRING日期类型eg:工作日/周末

三、答案

SparkSQL语法

SQL1:将雇员连续缺勤达到一天的记录的严重性计分置为0;

思路:按雇员分组,按日期排序,得到rn;用日期减rn;用开窗的方式代替group by 减少表自身关联次数。

select 
	emp_id,
	absent_date,
	reason_code,
	if(absent_cnt > 1,0,severity_points) as severity_points
from 
(
	select 
		emp_id,
		absent_date,
		reason_code,
		severity_points,
		tag_date,
		sum(1)over(partition by emp_id,date_add(absent_date,-rn)) as absent_cnt
	from 
	(
		select 
			emp_id,
			absent_date,
			reason_code,
			severity_points,
			row_number()over(partition by emp_id order by absent_date) as rn
		from Absenteeism
	) in1
) t1

SQL2:找出一年内严重性计分累计达到40的雇员;

select 
	t1.emp_id,
	sum(t1.severity_points)
from t1
left join Calendar t2
where t2.date_type = 'work'
and t1.absent_date between date_add(CURRENT_DATE,-365) and CURRENT_DATE
group by t1.emp_id
having sum(t1.severity_points) >= 40

四、总结

处理连续问题

标准步骤:
(1)按雇员分组,按日期排序,得到rn
(2)用日期减rn

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值