collect、explode、concat、lateral view

这篇博客介绍了Spark SQL中的一些重要函数,包括collect_set和collect_list的使用,它们在分组数据时汇总字段值为数组。接着详细讲解了concat和concat_ws函数在字符串拼接上的差异,特别是对NULL值的处理。文章还深入探讨了explode函数,用于将数组或map字段展开为多行,并解释了其作为UDTF的限制。最后,重点阐述了lateral view的功能,如何与UDTF配合解决特定问题,以及outer lateral view的应用,确保不丢失数据。
摘要由CSDN通过智能技术生成

一、collect_set 和 collect_list 函数

collect_set(col) 、 collect_list(col)函数只接受基本数据类型,它的主要作用是将某字段的值汇总,产生Array类型字段,注意该函数只能接受一列参数!我们一般都会配合group by 函数,直接汇总分组数据!

 

collect函数也可以实现一个功能:获取group by后面没有的字段!

 

collect_set 和 collect_list 函数的区别很直观,set会进行去重,而list不会

 

我们可以通过下标去获取数组中的数据取值时如果下标超出范围,会返回NULL

二、concat / concat_ws 函数

concat

 

select concat('a','b')

 

直接用concat函数,如果其中某一列为NULL,那么合并结果也为NULL

concat_ws 

 

select concat_ws(',','a','b')
select concat_ws(',',collect_list(cookieid))

 

第一个参数为指定合并分隔符

NULL字段合并对于concat_ws来说无影响!

三、Explode

根据引用\[1\]和引用\[2\]的内容,可以使用concat_ws函数结合collect_set函数来进行排序。首先,将collect_set函数改为collect_list函数或sort_array函数进行排序。例如,使用sort_array(collect_set(t.class), false)来对字段进行排序。然后,使用concat_ws函数将排序后的字段进行拼接。最后,根据需要使用group by语句对结果进行分组。这样就可以实现concat_ws和collect_set的排序功能。引用\[1\]\[2\] #### 引用[.reference_title] - *1* [SQL之concat()、collect_set()、collect_list()和concat_ws()用法](https://blog.csdn.net/weixin_48272780/article/details/128243152)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [hive中的拼接函数concat,group_concat,concat_ws,collect_set)](https://blog.csdn.net/zll_1234/article/details/106329025)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [hive concat_ws列转行排序问题](https://blog.csdn.net/qq_37067752/article/details/125238271)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值