ubuntu16.04下搭建开发环境
1.安装jdk(版本1.8,官网下载)
2.下载spark,选择对应的hadoop版本(官网下载)(版本2.4.1)
3.下载sbt(版本1.2.8)
4.下载scala(版本2.12.8)
打算学习基于python的spark开发和基于scala的spark开发,所以配置了两种开发环境,均亲测可用。
后续将研究讨论版本匹配问题
环境变量的配置如图:
一 基于vscode的spark+python开发环境配置
1. from pyspark import SparkContext
出现问题:no module named pyspark
解决方法:配置环境变量,将spark目录下的python包和py4j包加载到环境变量中。
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-x.xx.x-src.zip:$PYTHONPATH
结果展示: