hadoop和spark配置问题记录

3的4次方

已于 2023-05-23 10:09:58 修改

阅读量598

点赞数

分类专栏：问题文章标签： hadoop spark 大数据

于 2023-05-18 21:44:54 首次发布

本文链接：https://blog.csdn.net/m0_58699417/article/details/130748028

版权

6 篇文章 0 订阅

订阅专栏

直接启动的start-all.sh是环境变量中配置的hadoop的脚本，不是spark的，因此启动spark的start-all.sh脚本即可。

启动Spark在UI界面上看不到worker节点的信息_潇洒哥WH3的博客-CSDN博客

此问题和下一问题：“Hadoop的Live Nodes显示为0” 是同一问题。

根本原因同“Hadoop的Live Nodes显示为0”，临时解决方法是：修改hadoop的start-env.sh，将其中的MASTER_IP改为MASTER_HOST，并将Master名改为Master的IP。

Hadoop集群活跃节点为0解决方案_Ichimaru_Gin_的博客-CSDN博客

原因是/etc/hosts中配置的IP发生了覆盖，只需要去掉127.0.0.1的masterIP就行，同时保留master和slave的真实IP

在这里插入图片描述

spark自带pyspark，不过版本不一定最新，以下采用黑马程序员的做法，在conda虚拟环境中安装。

1、安装conda发行版，这里选择miniconda3

2、安装python

注意安装的Python版本要和自己的pyspark兼容。我的是spark2.4.4，实测python3.8不兼容，python3.6兼容。

conda install python=3.6

这一步会自动安装pip

3、安装numpy库

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/

4、配置pyspark环境变量

需要配置3处地方：

首先配置黑马程序员中说的这两处（~/.bashrc和/etc/profile），记得source /etc/profile更新环境变量

export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3

运行spark安装目录bin下的pyspark程序，如果显示的python版本是我们指定的，则无需配置下面的，否则配置：

打开spark安装目录conf下的spark-env.sh，发现存在PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON变量，修改为：

export PYSPARK_DRIVER_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3