记一次spark-submi 提交python脚本遇到的问题

最新推荐文章于 2023-01-17 19:25:35 发布

qq_42337191

最新推荐文章于 2023-01-17 19:25:35 发布

阅读量320

点赞数

分类专栏： pyspark

本文链接：https://blog.csdn.net/qq_42337191/article/details/107061891

版权

pyspark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、通过spark-submit 提交报错如下 yarn运行模式
在这里插入图片描述

spark用的版本是2.4.0是支持pandas_udf的，而且通过pyspark的shell命令行一条条执行都是没有问题的但是将代码作为文件用spark submit提交就报这个错误

二、解决办法：
@pandas_udf(returnType=“string”, PandasUDFType.GROUPED_AGG)中的修改为@pandas_udf(StringType(),PandasUDFType.GROUPED_AGG)

三、疑惑
1、为何shell命令行可以执行
2、官方文档中有
@pandas_udf(“double”, PandasUDFType.GROUPED_AGG)
这样的示例，用spark submit也尝试过用double 也是报同样的错误，
官方文档中对函数参数的说明是，
GROUPED_AGG
A grouped aggregate UDF defines a transformation: One or more pandas.Series -> A scalar
The returnType should be a primitive data type, e.g., DoubleType.
The returned scalar can be either a python primitive type, e.g., int or float
or a numpy data type, e.g., numpy.int64 or numpy.float64.

三、spark-submit命令详解
https://xinancsd.github.io/Python/spark-submit_usage.html
spark-submit --master yarn --deploy-mode client --py-files XXX.zip XXX.py