concat_ws(sep, cols)和concat(cols) pyspark.sql.functions使用详解

qq_34669699

已于 2023-02-17 16:54:59 修改

阅读量594

点赞数

分类专栏：大数据个人笔记文章标签： sql spark

于 2023-02-17 11:05:02 首次发布

本文链接：https://blog.csdn.net/qq_34669699/article/details/129080650

版权

个人笔记同时被 2 个专栏收录

8 篇文章

订阅专栏

大数据

7 篇文章

订阅专栏

pyspark.sql.functions两中字符串拼接函数的用法和差异

concat_ws(sep, *cols)

使用给定的分隔符sep 将多个输入字符串列连接到一个字符串列中。

>>> df = sqlContext.createDataFrame([('abcd','123')], ['s', 'd'])
>>> df.select(concat_ws('-', df.s, df.d).alias('s')).collect()
[Row(s=u'abcd-123')]

concat(*cols)

将多个输入字符串列连接成一个字符串列。

>>> df = sqlContext.createDataFrame([('abcd','123')], ['s', 'd'])
>>> df.select(concat(df.s, df.d).alias('s')).collect()
[Row(s=u'abcd123')]

两者差异

当使用concat(*cols)拼接，当某个字段为NULL,会拼接生成空行，导致数据缺失

>>> df = spark.createDataFrame([([1, 2], [3, 4], [5]), ([1, 2], None, [3])], ['a', 'b', 'c'])
    >>> df.select(concat(df.a, df.b, df.c).alias("arr")).collect()
    [Row(arr=[1, 2, 3, 4, 5]), Row(arr=None)]

import pyspark.sql.functions as F
d = df.withColumn("sep", F.lit("|$|"))
data = d.select(F.concat(d.a, d.Sep, d.b, d.Sep, d.c).alias('s'))

同时也可以作为一种过滤方式，将字段为NULL的数据过滤掉
如果需要保留字段为NULL的数据，使用concat_ws(sep, *cols)

data_ws = d.select(F.concat_ws('|$|', d.a, d.b, d.c).alias('s'))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_34669699

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pyspark笔记（RDD,DataFrame和Spark SQL）

算法工程师

07-24

3408

spark，pyspark，dataframe，spark sql

【halcon】tuple_sort_index 和 select_obj 配合使用详解

热门推荐

振裕

03-23

1万+

字符串函数 1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数 1. 字符串拼接 from pyspark.sql.functions import concat, concat_ws df = spark.createDataFrame([('abcd','123')], ['s',...

pyspark对字段加前缀，拼接字符串

攻城狮Kevin

05-30

759

通过concat()函数进行字段拼接，通过lit("check_")构建一个字面值列。

【Spark】concat、concat_ws函数的使用

hyj

09-23

4527

concat、concat_ws函数的使用

concat函数_pyspark系列--自定义函数

weixin_39716971的博客

11-24

1002

自定义函数 1. 概览2. 自定义函数的一般流程3. 简单的自定义函数4. 自定义函数进阶5.pandas-udf自定义函数1. 概览自定义函数的重点在于定义返回值类型的数据格式，其数据类型基本都是从from pyspark.sql.types import * 导入，常用的包括：StructType()：结构体 StructField()：结构体中的元素 LongType()：长整型 Strin...

pyspark group_concat

武西亮的博客

09-09

1469

from pyspark.sql.column import Column from pyspark.sql.column import _to_java_column from pyspark.sql.column import _to_seq spark = SparkSession.builder.appName("scala_udf_test").getOrCreate() sc = ...

Spark SQL 中org.apache.spark.sql.functions归纳

xiaohu21的博客

10-06

2559

Spark SQL 中org.apache.spark.sql.functions归纳注意，这里使用的是scala 2.12.12，spark版本是最新的3.0.1版本 1. Sort functions /** * Returns a sort expression based on ascending order of the column. * {{{ * df.sort(asc("dept"), desc("age")) * }}} * * @group s

【pandas】pd.concat(col_1,col_2,...,axis=1)后行错位

weixin_42631554的博客

04-11

2675

项目场景：使用pandas读取数据集为dataframe。删除其中指定列的值为‘value’的行。将待处理的每一列单独取出。例如： col_1 = data.loc[:,'col_1'] 对数值为离散型的列执行label编码。例如： le = LabelEncoder() col_1= le.fit_transform(col_1) col_1= pd.DataFrame(col_1,columns=['col_1']) 使用pd.concat()将所有列拼接在一起组成新的数

【Pandas总结】第七节 Pandas 合并数据集_pd.concat()

weixin_47139649的博客

09-17

7716

concat 函数在通常情况下都只用于上下堆叠合并，所以其实我们只要知道上下堆叠合并，这一种使用方法就完全OK啦~ 以上为个人理解，如有错误，还请不吝赐教，多多指导~~

pyspark.sql两种行转列pivot和collect用法比较及concat_ws 组合使用

qq_34669699的博客

02-20

836

pyspark.sql两种行转列pivot和collect用法比较及concat_ws 组合使用

spark concat_ws,collect_set

zhuiqiuuuu的博客

05-30

7233

hive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id; OK 5112 960024_960025_960026_960027_960028 5113 960043_960044_960045_960

pyspark案例系列3-dataframe实现mysql的group_concat功能

只是甲的博客

05-24

5233

一.问题描述今天写pyspark遇到一个问题，要实现同mysql的GROUP_CONCAT函数的功能数据1: col1 col2 1 a 1 b 1 c 2 d 2 f 想要的结果1: col1 new_col2 1 a,b,c 2 d,f 如果存在多列是否也可行数据2: col1 col2 col3 1 a 100 1 b 20

pyspark之字符串函数操作（五）

人生百态361

02-28

2868

1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数 1. 字符串拼接 from pyspark.sql.functions import concat, concat_ws df = spark.createDataFrame([('abcd','123')], ['s', 'd']) # 1.直接拼接...

python学习之字符串拼接的四种方法

分享型博主

02-07

6562

忘了在哪看到一位编程大牛调侃，他说程序员每天就做两件事，其中之一就是处理字符串。相信不少同学会有同感。在Python中，我们经常会遇到字符串的拼接问题，几乎任何一种编程语言，都把字符串列为最基础和不可或缺的数据类型。而拼接字符串是必备的一种技能。今天，一起来学习Python拼接字符串的四种方法。这种方式最常用、直观、易懂，是入门级的实现方式。但是，新入门编程的同学容易犯错，他们不知道字符串是不可变类型，新的字符串会独占一块新的内存，而原来的字符串保持不变。上例中，拼接前有两段字符串，拼接后实际有三段字符串

mysql 中group_concat长度限制

beijing20120926的专栏

04-07

1734

group_concat有长度限制！长度陷阱用了group_concat后，select里如果使用了limit是不起作用的. 用group_concat连接字段的时候是有长度限制的，并不是有多少连多少。但你可以设置一下。使用group_concat_max_len系统变量，你可以设置允许的最大长度。程序中进行这项操作的语法如下，其中 val 是一个无符号整数： SET [S

MYSQL中的concat()函数和concat_ws()函数

甲方乙方

08-08

2249

MySQL中字符串函数 1、concat()函数：可以连接一个或者多个字符串，如：但是Oracle的concat函数只能连接两个字符串。在连接字符串的时候，只有其中有一个是NULL，将返回NULL： 2、concat_ws()函数：将有分隔符的字符串连接起来，如： MySQL中concat函数不同的是, concat_ws函数在执行的时候,不会因为NU

pyspark date_format、concat_ws、datediff、explode、collect_list、arrays_zip、regexp_replace等

weixin_42357472的博客

12-27

982

import pyspark.sql.functions as F import pyspark.sql.types as T from pyspark.sql.functions import split from pyspark.sql.functions import regexp_replace, col date_format、concat_ws、datediff ** cast 时间格式转化 df.withColumn("action_date",F.date_format(F.concat

解释代码 agg = pd.concat(cols, axis=1) agg.columns = names

04-04

这段代码首先使用pandas库中的concat函数，将多个数据列按照列方向（即axis=1）拼接在一起，返回一个新的数据列agg。然后，将agg数据列的列名（即列索引）设置为names列表中的元素，其中names列表应该包含了每个拼接的数据列的列名。这样做可以保证新的数据列agg拥有正确的列名。