hadoop和spark配置问题记录
Spark的WebUI访问不了
直接启动的start-all.sh是环境变量中配置的hadoop的脚本,不是spark的,因此启动spark的start-all.sh脚本即可。
Spark看不到Worker信息
此问题和下一问题:“Hadoop的Live Nodes显示为0” 是同一问题。
根本原因同“Hadoop的Live Nodes显示为0”,临时解决方法是:修改hadoop的start-env.sh,将其中的MASTER_IP改为MASTER_HOST,并将Master名改为Master的IP。
Hadoop的Live Nodes显示为0
原因是/etc/hosts中配置的IP发生了覆盖,只需要去掉127.0.0.1的masterIP就行,同时保留master和slave的真实IP
IDEA配置Scala+Maven项目相关
-
一些配置:使用IntelliJ IDEA开发Spark应用程序_厦大数据库实验室博客 (xmu.edu.cn),其他教程在CSDN的收藏
配置PySpark环境
spark自带pyspark,不过版本不一定最新,以下采用黑马程序员的做法,在conda虚拟环境中安装。
1、安装conda发行版,这里选择miniconda3
miniconda安装及环境创建(Linux)_linux miniconda_蓬蓬奇的博客-CSDN博客
2、安装python
注意安装的Python版本要和自己的pyspark兼容。我的是spark2.4.4,实测python3.8不兼容,python3.6兼容。
conda install python=3.6
这一步会自动安装pip
3、安装numpy库
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/
4、配置pyspark环境变量
需要配置3处地方:
首先配置黑马程序员中说的这两处(~/.bashrc和/etc/profile),记得source /etc/profile
更新环境变量
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
运行spark安装目录bin下的pyspark程序,如果显示的python版本是我们指定的,则无需配置下面的,否则配置:
打开spark安装目录conf下的spark-env.sh,发现存在PYSPARK_PYTHON
和PYSPARK_DRIVER_PYTHON
变量,修改为:
export PYSPARK_DRIVER_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3