hive-分组按比例获取样本如何实现?

背景:

有一批样本,比如是1000w,包含了若干个车系,现在我想从这1000w里获取到每个车系40%的数据,为了保证样本的散列,随机获取。

实现方式:

方式一:

select 
series,
brand
from 
(select series,brand,
model,
count(1) over(partition by series) as count,  --获取到各个分组的总数
row_number() over(partition by series order by rand()) rank 
from t1
where  series !='' and series is not null )t
where rank < count*0.4  --获取40%即可
; 

方式二:

 with 
 t_1 as ( 
     select series, brand
     row_number() over(partition by series order by rand()) as rank 
     from a 
 ), 
 t_2 as ( 
     select 
     series, max(rank)/40 as max_rank
     from b
     group by series 
 ) 
 select a.* 
 from t_1 a 
 left join t_2 b 
 on a.series = b.series 
 and a.rn < b.max_rank

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值