1、
ERROR ShutdownHookManager: Exception while deleting Spark temp dir: c:/user/自己的用户名/Appdata/Local/Temp/xxxxxxx
这个错误对代码的运行没有影响,具体可行修改方法没有查到(有需要可以自己搜索)。
自己可以进入那个目录看一下,里面会多一些文件(spark-xxxxx-xxxx),可以手动删掉,对集群运行没有影响,如果一直存储这些文件,c盘会变满,再运行集群会有问题。
2、
TypeError: 'JavaPackage' object is not callable
这是因为pyspark库版本问题,最新问题不兼容。方法是降低pyspark库版本。在之前的集群搭建中,我安装的是pyspark库是3.5.0版本,降低为3.2.0版本(我的spark安装包为3.2.0),该问题解决。(最好安装和spark安装包版本一样的版本号)。pip uninstall pyspark,pip install pyspark == 3.2.0。
3、在vscode运行pyspark库的代码,每次结束后出现:
成功: 已终止 PID 13656 (属于 PID 12412 子进程)的进程。
这个不知道是不是正常,还是存在问题,但不会影响程序运行。(有办法的可以交流以下)
4、
root is not a leaf queue
修改yarn-site.xml(/export/server/hadoop/etc/hadoop),重启yarn就可以了。
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
修改为:
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
5、
Please install psutil to have better support with spilling
安装psutil库,pip install psutil。
后续有问题会继续补充。