mac graphX通过python调用

wang_306

于 2019-03-01 18:09:32 发布

阅读量1.4k

点赞数 1

分类专栏：社团发现文章标签： python graphx graphframes mac jupyter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang_306/article/details/88065139

版权

社团发现专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了如何在PySpark中使用GraphFrames库进行图数据处理，包括在spark-submit和jupyter notebook环境中配置GraphFrames的方法，以及解决版本兼容性问题的技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark中的GraphX模块是没法直接通过python的接口调用的，都是直接使用的Scala，这对只熟悉python的人来说太痛苦了，并且Scala中的基础数据结构也是RDD，通过RDD来描述点和边，但做数据分析的话，明显对Spark 的DataFrame更熟悉一些，所以就研究怎样用python来调用GraphX模块。
查了很多资料，总的来说是通过应用graphFrames这个Apache的包，但引入的方式感觉都比较麻烦，我的需求就是能够在jupyter notebook里面用，当然spark-submit也需要。最终探索出来一个比较方便的方法如下：

在pyspark中使用graphFrames

如果是用spark-submit提交任务，是无需下载很多文章提到的这个jar包的（graphframes:0.7.0-spark2.4-s_2.11.jar），它会自动寻找并下载，当然如果你的不行，它的下载链接为：https://spark-packages.org/package/graphframes/graphframes

spark-submit --packages graphframes:graphframes:0.7.0-spark2.4-s_2.11 ***.py

这样python代码里面就能直接引人了

from graphframes import *

在jupyter中使用GraphFrames

不用像其他文章说的这么麻烦，直接通过编辑环境变量，我的是 ~/.zshrc ，其它Linux系统也是一样的改一下用户的bashrc文件，添加如下两条命令

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

source ~/.zshrc 一下
再次执行

pyspark --packages graphframes:graphframes:0.7.0-spark2.4-s_2.11

会弹出jupyter的窗口了，并且会自动带了sc和sqlContext等环境

唯一需要注意的是，不能使用base环境以外的环境，应该是版本不兼容，我的base环境是3.7，其他环境是3.6所以会报错，直接使用base环境就ok了

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。