Hive 根据时间对 “对话”数据进行排序

最新推荐文章于 2021-12-20 22:41:43 发布

我是京城小白

最新推荐文章于 2021-12-20 22:41:43 发布

阅读量1.3k

点赞数 1

分类专栏： hive

本文链接：https://blog.csdn.net/wdh315172/article/details/107067468

版权

hive 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

由于使用 sort by (order by, distribute by, cluster by 等)对同一个 ID 根据时间进行排序时，并不是按照真正的时间进行排序（sort by , 其实是对每个reduce中对数据进行排序，也就是执行一个局部排序过程）。故使用 sort_array 对数据排序。

示例如下：

select
sessionid,

regexp_replace(
concat_ws('###===###', sort_array(
collect_list(concat_ws('=', cast(time as string), content)
)
)
), '[0-9]{{4}}-[0-9]{{2}}-[0-9]{{2}} [0-9]{{2}}:[0-9]{{2}}:[0-9.]{{2,4}}=', '') as session_seq_text

from

(

select sessionid, content, time from your_self_hive_table 
where dt='2020-06-01' and length(content)>0 and score>=0.5

) x

group by sessionid

;

优惠劵

我是京城小白

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hive 根据时间对 “对话”数据进行排序

由于使用 sort by (order by, distribute by, cluster by 等)对同一个 ID 根据时间进行排序时，并不是按照真正的时间进行排序（sort by , 其实是对每个reduce中对数据进行排序，也就是执行一个局部排序过程）。故使用 sort_array 对数据排序。示例如下：selectsessionid,regexp_replace(concat_ws('###===###', sort_array(collect_list(concat_ws('
复制链接

扫一扫