在使用pyspark的时候,有时候需要用到graphframes库,但是如果直接在spark文件夹使用pip install graphframes,即使安装成功了,也还是会报错。报错如图:
了解一下后发现,原来这里有一个小坑,安装的graphframes需要与之前安装的spark版本保持一致,在这里可以查询和下载到相关的graphframes版本:
https://spark-packages.org/package/graphframes/graphframes
本人安装的spark是3.2.1版本的,因此选择graphframes 3.2
可以直接选择下载zip压缩包,解压缩后,将graphframes文件夹放在安装的spark文件夹目录内,可以使用sudo mv的命令移动,也可以直接复制过去:
复制成功后,再去pyspark环境调用graphframes,就成功了: