Dataset<Row>序列化并进行存储

java中的数据embedding是id和features,分别是id编号及embedding(array[float]形式,但格式似乎无法序列化,无法序列化则不能保存),如下详情,

root
 |-- id: integer (nullable = false)
 |-- features: array (nullable = true)
 |    |-- element: float (containsNull = false)

For deep learning QQ Second Group 629530787 

 这个Dataset类似于dataframe,或者说俩是一样的,当然和py中的也是一样的,但py中的可以直接存储,而java做不到。

报错如下:

CSV data source does not support array<float> data type(保存csv出错)

Text data source supports only a single column, and you have 2 columns.(保存text出错)

直接保存为CSV出现如下情况

0org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@de0c088a
10org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@42842f33
20org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@9b35950f
1org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@fc9c6d31
11org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@5a1a55a7
21org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@1d4b909d
2org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@854f23d2

要么就是报错,

toJavaRDD().map(row->row.getAs("id").toString()+","+Arrays.toString((long[]) row.getAs("features")))
                .saveAsTextFile(outDir+"/userFeatures")

class scala.collection.mutable.WrappedArray$ofRef cannot be cast to class [J (scala.collection.mutable.WrappedArray$ofRef is in unnamed module of loader 'app'; [J is in module java.base of loader 'bootstrap')

真是心累啊。

TNND,经过我的搜索,发现都是很难做的,很麻烦的,我TM直接一个函数解决了。如下:

toDF().withColumn("features",concat_ws(",",col("features"))).write().csv(outDir+"/userFeatures");

关键函数concat_ws,参考博文。保存的数据也是正常的。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值