spark dataframe 一列分隔多列，一列分隔多行（scala）

最新推荐文章于 2024-07-31 15:54:40 发布

暮之雪

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量2.6w

点赞数 12

分类专栏： spark

本文链接：https://blog.csdn.net/u013090676/article/details/80721764

版权

spark 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

关于spark dataframe ，这里介绍三种实用中实现可能比较麻烦的操作，首先上原始数据集 mRecord：

一，合并content列，将name相同的content合并到一行，用逗号隔开：

        mRecord.createOrReplaceTempView("test");
        val Df1 = sparkSQL.sql("select name,concat_ws(',',collect_set(content)) as contents from test group by name");
        Df1.show(false);

结果如下：

二、将contents列的内容根据逗号分隔成三列：

        val Df2 = Df1.withColumn("splitcol",split(col("contents"), ",")).select(
            col("splitcol").getItem(0).as("col1"),
            col("splitcol").getItem(1).as("col2"),
            col("splitcol").getItem(2).as("col3")
        ).drop("splitcol");
        Df2.show(false);

结果如下：

三、将一中的contents还原最初状态，及将一列的内容根据逗号分隔成多行：

        val Df3 = Df1.withColumn("arrayCol",split(col("contents"),",")).withColumn("expCol",explode(col("arrayCol")));
        Df3.show(false);

结果如下：

注意expCol列的内容

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

暮之雪

关注关注

12
点赞
踩
44

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Spark】Spark Dataframe 常用操作（一行数据映射为多行）_spark 一行变多行(1)

2401_84181731的博客

05-06

1047

4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以传多个参数，中间用逗号分隔，如果有字段为空，那么不参与运算，只这对数值类型的字段。3、 agg(aggExpr: (String, String), aggExprs: (String, String)) 返回dataframe类型，同数学计算求值。3、 count() 返回一个number类型的，返回dataframe集合的行数。

spark 把一列数据合并_spark dataframe操作集锦（提取前几行，合并，入库等）

weixin_39837139的博客

12-18

356

Sparkdataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到Hive中。不得不赞叹dataframe的强大。具体示例...

8 条评论您还未登录，请先登录后发表或查看评论

spark sql实战—拆分数据

zg_hover的专栏

05-23

1万+

拆分的数据有时在进行数据时我们需要把一列数据分割成多列数据，把一个字段值，分割成多个值。本节介绍如何通过spark sql提供的函数来进行数据的分割。 1. 数据拆分概述数据拆分操作在进行数据处理时，通常我们需要对数据进行拆分。比如：把一列拆分成多行，多列，把一行拆分成多行，多列等。在spark-sql中提供了多个函数用来进行数据拆分。数据拆分的函数 split explode postexplode substring 2. 数据的拆分 2.1 通过explode系列函数进行拆分把一个数

spark dataframe 将一列展开,把该列所有值都变成新列的方法

09-19

今天小编就为大家分享一篇spark dataframe 将一列展开,把该列所有值都变成新列的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python dataframe 取特定的多列

weixin_40303914的博客

07-28

Spark DataFrame一行分割为多行

我的博客

08-25

8782

Spark DataFrame列的合并与拆分

vicleev的博客

09-18

1万+

Spark DataFrame 列的合并与拆分版本说明：Spark-2.3.0 使用Spark SQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。 1 DataFrame列数据的合并例如：我们有如下数据，想要将三列数据合并为一列，并以“,”分割 +----+---+----...

Dataframe一列分割成多列

weixin_46599926的博客

02-17

7949

Example 分割成包含两个元素的list列按 ‘,’ 分割 df['split'] = df.ls.str.split(',') 按 ‘.’ 分割 df['split'] = df.ls.str.split('.') 按 ‘.’ 分割，从左边开始分割，只分割成两部分 # split('分隔符', num=分割次数) df['split'] = df.ls.str.split('.', 1) 按 ‘.’ 分割，从右边开始分割，只分割成两部分 # rsplit('分隔符',

Spaek DataFrame 一列变成多列，

qq_31159375的博客

07-07

892

111 csdn产品经理是 s d

Spark SQL DataFrame 算子

最新发布

2401_84052244的博客

07-31

409

DataFrame 算子与 SQL 查询语句之间，并没有优劣之分，他们可以实现同样的数据应用，而且在执行性能方面也是一致的。因此，你可以结合你的开发习惯与偏好，自由地在两者之间进行取舍。DataFrame 本身支持的算子之外，在功能上，SQL 完全可以实现同样的数据分析。给定 DataFrame，你只需通过 createTempView 或是 createGlobalTempView 来创建临时表，然后就可以通过写 SQL 语句去进行数据的探索、倾斜、转换与分析。

Spark DataFrame 相关函数汇总

不管大小写的博客

04-30

2388

DataFrame 的函数 Action 操作 1、collect() ,返回值是一个数组，返回dataframe集合所有的行 2、collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行 3、count() 返回一个number类型的，返回dataframe集合的行数 4、describe(cols: String*) 返回一个通过数学计算的类表...

Spark DataFrame列拆分与合并

search-lemon的博客

11-07

3783

文章目录Spark DataFrame列拆分与合并（待续...）1. 列拆分1.1 方法一：生成字段结构再与数据关联1.2 方法二：拆分为数组后遍历2. 列合并2.1 方法一: 使用concat_ws函数2.2 方法二：使用map函数 Spark DataFrame列拆分与合并（待续…） 1. 列拆分 hdfs目录下/home/test/testSplitTxt.txt文件内容 a,b,c,d...

[Scala] Spark将RDD中某一列下的数组拆分成多列

枪枪枪的博客

12-21

2464

val data: RDD[String] val data2 = data.map(x => { val y = x.split("\\|\\|", -1) y }) val data3 = data2.toDF() data3.show(10) +--------------------+ | value| +--------------------+ |[66,................]| |[81,...........

转： Spark 的核心概念 RDD

PacosonSWJTU的博客

09-24

247

转自：https://juejin.im/post/6844903826953076750 1.RDD 概述 1.1 什么是 RDD ? RDD(Resilient Distributed Dataset) 叫着弹性分布式数据集，是Spark 中最基本的抽象，它代表一个不可变、可分区、里面元素可以并行计算的集合。 RDD 具有数据流模型特点：自动容错、位置感知性调度和可伸缩。 RDD 允许用户在执行多个查询时，显示地将工作集缓存在内存中，后续的查询能够重用工作集，这将会极大的提升查...

数据处理生产环境_利用Scala和Spark对DataFrame进行复杂数据操作__withClumn，split及SubString_将包含两列的DataFrame进行转换和拆分

Matrix70的博客

11-17

355

包含两列的DataFrame进行转换和拆分，我想实现的是将dataframe表table1中的字段b1与c1的内容使用下划线_连接起来列的名字为d1,比如比如学习_1,睡觉_2，吃饭_3，这是我的第一个需求；随后我想保留的是dataframe表table1中的字段d1中的数据比如学习_1,睡觉_2，吃饭_3，中的数据中_前后的数据分别作为两列e1，f1，

dataframe一列转化一个字符串_将Spark Dataframe字符串列拆分为多列

weixin_39908070的博客

02-15

879

这是针对一般情况的解决方案，该解决方案不需要使用collect或使用udfs 提前知道数组的长度。不幸的是，这仅适用于spark2.1及更高版本，因为它需要该posexplode功能。假设您具有以下DataFrame：df = spark.createDataFrame([[1, 'A, B, C, D'],[2, 'E, F, G'],[3, 'H, I'],[4, 'J']], ["num",...

spark读取csv文件，将数据分成多列

m0_56343620的博客

09-18

1296

前言：之所以写这个，是最近在用Scala语言写spark 通过RDD读取csv文件后，如何将一列成多列，最后写入Mysql中，在晚上找了很多一列转多列的博文，发现没一个适用我的，因为也是刚学spark，比较菜，这个问题前前后后花了我两天的时间才搞定。直接贴代码吧 //读取csv文件并最终将RDD转成DataFrame val rdd = spark.sparkContext.textFile("aaa.csv") val logDF = rdd.map(_.split(",")).map(

dataframe一列拆分成多列 split