![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
qq_42337191
这个作者很懒,什么都没留下…
展开
-
记一次spark-submi 提交python脚本 遇到的问题
一、通过spark-submit 提交报错如下 yarn运行模式 spark用的版本是2.4.0是支持pandas_udf的,而且通过pyspark的shell命令行一条条执行 都是没有问题的 但是将代码作为文件用spark submit提交就报这个错误 二、解决办法: @pandas_udf(returnType=“string”, PandasUDFType.GROUPED_AGG)中的修改为@pandas_udf(StringType(),PandasUDFType.GROUPED_AGG)原创 2020-07-01 13:18:48 · 304 阅读 · 0 评论 -
pyspark
一、读写hdfs上文件 读取hdfs某目录下的json文件: json_dir=‘hdfs:////.json’ spark.read.format(‘json’).option(‘header’,‘true’).option(‘inferSchema’,‘true’).load(json_dir) 写入hdfs: df.rdd.saveAsTextFile(“hdfs://”) 最后一级需要是目录 二、 ...原创 2020-06-30 15:15:38 · 142 阅读 · 0 评论