hadoop和spark配置问题记录

hadoop和spark配置问题记录

Spark的WebUI访问不了

直接启动的start-all.sh是环境变量中配置的hadoop的脚本,不是spark的,因此启动spark的start-all.sh脚本即可。

Spark看不到Worker信息

启动Spark在UI界面上看不到worker节点的信息_潇洒哥WH3的博客-CSDN博客

此问题和下一问题:“Hadoop的Live Nodes显示为0” 是同一问题。

根本原因同“Hadoop的Live Nodes显示为0”,临时解决方法是:修改hadoop的start-env.sh,将其中的MASTER_IP改为MASTER_HOST,并将Master名改为Master的IP。

Hadoop的Live Nodes显示为0

Hadoop集群活跃节点为0解决方案_Ichimaru_Gin_的博客-CSDN博客

原因是/etc/hosts中配置的IP发生了覆盖,只需要去掉127.0.0.1的masterIP就行,同时保留master和slave的真实IP

在这里插入图片描述

IDEA配置Scala+Maven项目相关

配置PySpark环境

spark自带pyspark,不过版本不一定最新,以下采用黑马程序员的做法,在conda虚拟环境中安装。

1、安装conda发行版,这里选择miniconda3

miniconda安装及环境创建(Linux)_linux miniconda_蓬蓬奇的博客-CSDN博客

2、安装python

注意安装的Python版本要和自己的pyspark兼容。我的是spark2.4.4,实测python3.8不兼容,python3.6兼容。

conda install python=3.6

这一步会自动安装pip

3、安装numpy库

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/

4、配置pyspark环境变量

需要配置3处地方:

首先配置黑马程序员中说的这两处(~/.bashrc和/etc/profile),记得source /etc/profile更新环境变量

export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3

运行spark安装目录bin下的pyspark程序,如果显示的python版本是我们指定的,则无需配置下面的,否则配置:

打开spark安装目录conf下的spark-env.sh,发现存在PYSPARK_PYTHONPYSPARK_DRIVER_PYTHON变量,修改为:

export PYSPARK_DRIVER_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值