mysql collect_set_spark sql concat_ws() collect_set() collect_list() 字段值拼接

最新推荐文章于 2022-06-08 21:17:33 发布

陈章鱼

最新推荐文章于 2022-06-08 21:17:33 发布

阅读量2.5k

点赞数

文章标签： mysql collect_set

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28871731/article/details/113142378

版权

spark sql collect_set、collect_list 、concat_ws都用来做字段拼接，其实和mysql中的字段拼接函数差不多，请参考Mysql中concat()、concat_ws()和 group_concat() 字段拼接的用法

1.concat_ws()函数

concat_ws()-CONCAT With Separator ，用分隔符来拼接字段

spark中concat_ws()和Mysql中一样，所以不多解释，

看源码/**

* Concatenates multiple input string columns together into a single string column,

* using the given separator.

*使用指定的分隔符将多个列拼接到单个字符串列中

*

* @group string_funcs

* @since 1.5.0

*/

@scala.annotation.varargs

def concat_ws(sep: String, exprs: Column*): Column = withExpr {

ConcatWs(Literal.create(sep, StringType) +: exprs.map(_.expr))

}

2.collect_set和collect_list

collect_set和collect_list，都是将分组后的单个列放到一个集合中

不同的是和java集合一样，Set不能存重复的值，是去重的，而list是不去重的/**

* Aggregate function: returns a list of objects with duplicates.

*聚合函数返回可重复的list对象

* @group agg_funcs

* @since 1.6.0

*/

def collect_list(e: Column): Column = withAggregateFunction { CollectList(e.expr) }

/**

* Aggregate function: returns a set of objects with duplicate elements eliminated.

*聚合函数返回去重后的set对象

* @group agg_funcs

* @since 1.6.0

*/

def collect_set(e: Column): Column = withAggregateFunction { CollectSet(e.expr) }

案例：df.groupBy("age").agg(collect_set("name")).show()

返回结果+---+-----------------+

|age|collect_set(name)|

+---+-----------------+

| 20| [LI, Justin]|

| 19| [Justin]|

| 29| [Michael]|

| 30| [Andy]|

+---+-----------------+

3.联合使用实现分组拼接字段

记得mysql 中的group_concat嘛，collect_list 、concat_ws联合使用就能实现分组拼接的效果sqlContext.sql("select concat_ws(',',collect_set(name)) as names from people group by age").show()

返回结果+---------+---+

| names|age|

+---------+---+

|LI,Justin| 20|

| Justin| 19|

| Michael| 29|

Andy| 30|

+---------+---+

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mysql collect_set_spark sql concat_ws() collect_set() collect_list() 字段值拼接

spark sql collect_set、collect_list 、concat_ws都用来做字段拼接，其实和mysql中的字段拼接函数差不多，请参考Mysql中concat()、concat_ws()和 group_concat() 字段拼接的用法1.concat_ws()函数concat_ws()-CONCAT With Separator ，用分隔符来拼接字段spark中concat_w...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。