1、在用pyspark的时候,像这种udf函数一定要加上需要转换的数据类型,,不然会报错~~
def parse_label(val):
return 1/(float(val)+0.0001)
TypeError: can only concatenate str (not "float") to str
2、pyspark 如图,如果不加float,会报下面这个错误

File "/mnt/yarn/usercache/hadoop/appcache/application_1614052931500_11164

在使用PySpark时,定义UDF(用户定义函数)必须明确指定输入数据类型,否则会导致Py4JJavaError。不进行类型转换,特别是在处理数值时,将引发错误。
最低0.47元/天 解锁文章
1012

被折叠的 条评论
为什么被折叠?



