pyspark导入，解决pyspark无法直接使用问题（linux版）

最新推荐文章于 2024-04-21 08:55:47 发布

偶白

最新推荐文章于 2024-04-21 08:55:47 发布

阅读量4.1k

点赞数 1

分类专栏： Spark框架文章标签： spark python

本文链接：https://blog.csdn.net/OWBY_Phantomhive/article/details/123676937

版权

Spark框架专栏收录该内容

10 篇文章 0 订阅

订阅专栏

pyspark的导入

之前我试过很多种方法，但是直接install pyspark总是没办法运行，所以这里我换了一种方法，直接导入pyspark

打开pycharm的项目，找到setting中的project structure

在这里插入图片描述

选择添加

在这里插入图片描述

在你下载的spark文件夹中，找到python文件夹，python文件夹的lib下有两个压缩包，放进去
在这里插入图片描述

应用即可，到这里，就已经成功很多了，但是我们还没结束，linux自带的python版本，和我们安装的python版本不统一，在worker和driver执行的时候就会报错

Exception: Python in worker has different version 2.7 than that in driver

类似这样的报错信息，

解决方法是，在spark文件夹的conf的spark-env文件中设置一下pyspark所使用的python版本，具体导入如下

export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3

当然，python3的路径用自己的

不知道的话，可以使用whereis寻找

whereis python3

保险起见，在linux环境变量中也加入这两条环境变量，

注意：修改完不要忘了source，并且重启一下虚拟机

重启完虚拟机，再次打开pycharm，我们就可以测试了，统计词频，使用的是spark自带的文件，路径记得改一下

if __name__ == '__main__':
  from pyspark import SparkConf, SparkContext
  conf = SparkConf().setMaster("local").setAppName("My App")
  sc = SparkContext(conf = conf)
  logFile = "file:///usr/local/spark/README.md"
  logData = sc.textFile(logFile, 2).cache()
  numAs = logData.filter(lambda line: 'a' in line).count()
  numBs = logData.filter(lambda line: 'b' in line).count()
  print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

执行，ok

在这里插入图片描述

偶白

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
pyspark导入，解决pyspark无法直接使用问题（linux版）

文章目录scala安装一、软件解压二、配置环境变量三、验证Spark安装一、解压二、添加环境变量三、修改启动变量文件四、启动Spark五、验证Python3.7安装**注意**一定严格按照流程，最好配置前备份虚拟机，python安装后出问题，卸载比较麻烦1、安装依赖包2、下载python3.7.0源码，根据需求下载1）下载2）解压Python-3.7.0.tgz3）建立一个空文件夹，用于存放python3程序4）执行配置文件，编译，编译安装5）建立软连接6）测试一下python3Pycharm破解解压压缩包
复制链接

扫一扫