Dataset＜Row＞序列化并进行存储

小李飞刀李寻欢

于 2022-10-16 17:05:17 发布

阅读量1.6k

点赞数 2

分类专栏： java 文章标签： java dataframe write save

本文链接：https://blog.csdn.net/SPESEG/article/details/127336297

版权

java 专栏收录该内容

39 篇文章 2 订阅

订阅专栏

java中的数据embedding是id和features，分别是id编号及embedding（array[float]形式，但格式似乎无法序列化，无法序列化则不能保存），如下详情，

root
|-- id: integer (nullable = false)
|-- features: array (nullable = true)
| |-- element: float (containsNull = false)

For deep learning QQ Second Group 629530787

这个Dataset类似于dataframe，或者说俩是一样的，当然和py中的也是一样的，但py中的可以直接存储，而java做不到。

报错如下：

CSV data source does not support array<float> data type（保存csv出错）

Text data source supports only a single column, and you have 2 columns.(保存text出错)

直接保存为CSV出现如下情况

0	org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@de0c088a
10	org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@42842f33
20	org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@9b35950f
1	org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@fc9c6d31
11	org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@5a1a55a7
21	org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@1d4b909d
2	org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@854f23d2

要么就是报错，

toJavaRDD().map(row->row.getAs("id").toString()+","+Arrays.toString((long[]) row.getAs("features")))
                .saveAsTextFile(outDir+"/userFeatures")

class scala.collection.mutable.WrappedArray$ofRef cannot be cast to class [J (scala.collection.mutable.WrappedArray$ofRef is in unnamed module of loader 'app'; [J is in module java.base of loader 'bootstrap')

真是心累啊。

TNND,经过我的搜索，发现都是很难做的，很麻烦的，我TM直接一个函数解决了。如下：

toDF().withColumn("features",concat_ws(",",col("features"))).write().csv(outDir+"/userFeatures");

关键函数concat_ws，参考博文。保存的数据也是正常的。

小李飞刀李寻欢

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Dataset＜Row＞序列化并进行存储

dataframe保存方法之多列表Array[float]
复制链接

扫一扫

专栏目录

Dataset＜Row＞序列化并进行存储

“相关推荐”对你有帮助么？