spark2.4.0 ml StringIndexer报错

最新推荐文章于 2021-01-12 21:53:59 发布

licaode

最新推荐文章于 2021-01-12 21:53:59 发布

阅读量1.2k

点赞数

分类专栏： spark2.4.0 ml 文章标签： spark2.4.0 ml StringIndexer

本文链接：https://blog.csdn.net/licaode/article/details/89981427

版权

事情是这样的

本人目前在用MovieLens_1M做电影推荐

出错的时候，是对用户数据做特征工程

首先对用户gender做StringIndexer，简单来说，就是把字符串类型的值转成数值类型的值，方便后续再调API做one-hot encoding，因为spark的OneHotEncoderEstimator要求必须是数值，String类型不支持呀。。。

但是，用StringIndexer转完后，我试着开始写文件（写成parquet哈），结果给我报了一长串的错。。。

核心部分如下：
Caused by: org.apache.spark.SparkException: Failed to execute user defined function($anonfun$9: (string) => double)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter

最低0.47元/天解锁文章

licaode

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark2.4.0 ml StringIndexer报错

事情是这样的本人目前在用MovieLens_1M做电影推荐出错的时候，是对用户数据做特征工程首先对用户gender做StringIndexer，简单来说，就是把字符串类型的值转成数值类型的值，方便后续再调API做one-hot encoding，因为spark的OneHotEncoderEstimator要求必须是数值，String类型不支持呀。。。但是，用StringInde...
复制链接

扫一扫