VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported

最新推荐文章于 2023-10-20 10:48:06 发布

sisiel

最新推荐文章于 2023-10-20 10:48:06 发布

阅读量3.1k

点赞数

分类专栏： Pyspark 文章标签： pyspark ml

本文链接：https://blog.csdn.net/sisiel/article/details/103824163

版权

Pyspark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

使用pyspark 中的VectorAssembler出现报错

vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features')

查看输入数据类型

df1.printSchema()

发现输入的inputCols的字段类型是string，而这个函数只接受float 或者int

故先进行类型转换

df1=df1.withColumn('device_number', df1.device_number.astype("int"))
df1=df1.withColumn('cust_sex', df1.cust_sex.astype("int"))

再执行

ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features',handleInvalid='keep').transform(df1).show()

成功，同时注意若原列中有null，需要将handleInvalid设置为'keep'或者"skip"，否则报错：

Caused by: org.apache.spark.SparkException: Encountered null while assembling a row with handleInvalid = "keep". Consider
removing nulls from dataset or using handleInvalid = "keep" or "skip".

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sisiel

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported

使用pyspark 中的VectorAssembler出现报错vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features')查看输入数据类型df1.printSchema()发现输入的inputCols的字段类型是string，而这个函数只接受flo...
复制链接

扫一扫