spark 把一列数据合并_Spark Java-合并同一列多行 - java

使用Java Spark处理数据框,目标是将具有相同'id'的行的'color'和'datas'列合并成数组。可以按'id'分组并应用`collect_list`函数来实现这一目标,从而创建每组的列表聚合。
摘要由CSDN通过智能技术生成

我正在使用Java Spark,并且有1个这样的数据框

+---+-----+------+

|id |color|datas |

+----------------+

|1 |blue |data1|

|1 |red |data2|

|1 |orange|data3|

|2 |black |data4|

|2 | |data5|

|2 |yellow| |

|3 |white |data7|

|3 | |data8|

+----------------+

我需要修改此数据框,使其看起来像这样:

+---+--------------------+---------------------+

|id |color |datas |

+----------------------------------------------+

|1 |[blue, red, orange] |[data1, data2, data3]|

|2 |[black, yellow] |[data4, data5] |

|3 |[white] |[data7, data8] |

+----------------------------------------------+

我想合并数据以创建同一列的“数组”,但基于“ id”列从不同的行创建一个“数组”。

我可以通过UserDefinedAggregateFunction来完成此操作,但一次只能完成一列,并且处理时间太长。

谢谢

编辑:我正在使用Spark 1.6

参考方案

您可以按“ id”分组,然后使用collect_list函数获取汇总值。

dataframe.groupBy("id").agg(collect_list(struct("color")).as("color"), collect_list(struct("dates")).as("dates") )

希望这可以帮助

有效地将包含字母的字符串转换为Int-Apache Spark - java

我正在使用将用户作为字符串的数据集(即B000GKXY4S)。我想将这些用户中的每一个都转换为int,因此可以在Apache Spark ALS中使用Rating(user:Int,product:Int,rating:Double)类。最有效的方法是什么?最好使用Spark Scala函数或python本机函数。 参考方案 如果只想将任何可匹配的Strin…找不到火花RDD类 - java

我是Spark的新手,并且需要有关错误的帮助:java.lang.NoClassDefFoundError: org/apache/spark/rdd/RDD$我正在Scala中创建一个独立的Spark示例。我运行了sbt clean package和sbt assembly来打包scala spark代码。两者均成功完成,没有任何错误。 RDD上的任何操作…Java:线程池如何将线程映射到可运行对象 - java

试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …JAVA:字节码和二进制有什么区别? - java

java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…java:继承 - java

有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值