hive中按照一个字段的区间进行统计

最新推荐文章于 2023-03-17 11:56:32 发布

SK_Lavender

最新推荐文章于 2023-03-17 11:56:32 发布

阅读量1.4w

点赞数

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/u010705209/article/details/53175888

版权

Hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1. question

给定一个hive表tmp，表中有一个字段result(double型)；给定一个区间分类个数m，统计每个区间内的count(*)的数量。

2. answer

在linux终端下，

# step1 设定区间分类个数，此处设置为10
m=10

# step2 求解字段 result 的最大值和最小值
section=`hive -e "
select max(result) as max_num,
       min(result) as min_num
from  tmp
"`
max_num=`echo -e "${section}" | cut -f1`
min_num=`echo -e "${section}" | cut -f2`

# step3 求解区间的长度
len_section=`hive -e "
select (${max_num} - ${min_num}) / ${m}
from   dual
"`

# step4 统计每个区间的个数
hive -e "
select ${min_num} + floor((result - ${min_num}) / ${len_section}) * ${len_section} as section_flag,
       count(*) as num  
from   tmp
"

最后的运行结果

0.0     1197
0.1     1587
0.2     1495
0.3     981
0.4     1074
0.5     947
0.6     424
0.7     173
0.8     114
0.9     59
1.0     2

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SK_Lavender

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
hive中按照一个字段的区间进行统计

1. question给定一个hive表tmp，表中有一个字段result(double型)；给定一个区间分类个数m，统计每个区间内的count(*)的数量。2. answer在linux终端下，# step1 设定区间分类个数，此处设置为10m=10# step2 求解字段 result 的最大值和最小值section=`hive -e "select max(result) as max_
复制链接

扫一扫