Spark搭建日志,记录一些踩过的坑

Spark搭建日志


本人在Centos中使用三个虚拟机(node1,node2,node3)搭建hadoop与Spark分布式环境(具体见后记中的Hadoop安装),本文记录一些踩过的坑

错误1:运行./start-all.sh时,遇到权限不够的情况

img

解决办法:sudo chown -R 用户名 /spark(spark或者hadoop所在目录)

原理:文件的初始所有者不是用户名(如root),要把spark目录的初始所有者更换为自己的用户名

错误2:spark运行./start-all.sh时出现Permission Denied错误

img

解决办法:重新进行三个节点的ssh免密登录:【精选】大数据Hadoop(一):集群搭建–Hadoop3.3.1、CentOS8、HDFS集群、YARN集群最新保姆级教程_centos8安装yarn_彭瑞琪的博客-CSDN博客

原理:要输入密码,但是一般怎么输入都不对(我也不知道问什么,留个坑),所以要重新进行ssh免密登录才行,避免输入密码

错误3:在root用户下,每次新建终端都要source一下配置文件profile的解决办法

解决办法:在~/.bashrc文件里添加source /etc/profile命令

[学习笔记]Centos7每次启动都要执行 source /etc/profile才能找到java路径_centos source-CSDN博客

这样每次启动终端都会自动source一下profile文件

原理:普通用户下没有问题,就是在root下出现问题,应该是root用户没有在全局变量中?

image-20231017182350786

普通用户的~/.bashrc文件

image-20231017182418216

root用户的~/.bashrc文件

如果想设置打开终端后自动激活自己的环境,比如pyspark:只需在.bashrc里最后一行加上 conda activate pyspark即可

各个端口的含义

  1. spark://node1:7077

spark://node1:7077 是 Apache Spark 集群管理的地址。在这个地址中,node1 是 Spark 集群的主节点(也称为 Spark Master),而 7077 是 Spark Master 的默认网络监听端口。

  • spark://:这是 Spark 集群的地址协议头。
  • node1:这是 Spark Master 的主机名或 IP 地址,表示 Spark 集群的主节点。
  • 7077:这是 Spark Master 的默认网络监听端口。Spark Master 通过这个端口接收来自工作节点(Spark Worker)的连接以及管理整个 Spark 集群的资源分配和作业调度。

当你使用 Spark Standalone 集群管理模式时,你会在 Spark Master 上通过 spark://node1:7077 地址来连接到集群并提交 Spark 应用程序。这允许你将作业调度到 Spark 集群,管理资源分配以及监视应用程序的运行状态。

请注意,7077 是默认端口号,你可以在 Spark Master 的配置中更改这个端口号,但在大多数情况下,使用默认端口即可。如果你的 Spark Master 运行在其他端口上,你需要相应地更改地址。

  1. hdfs://node1:8020

hdfs://node1:8020 是 Hadoop HDFS 的默认文件系统 URL。在这个 URL 中,node1 通常是你的 Hadoop 集群的 NameNode 主机名或 IP 地址,而 8020 是 HDFS 的默认文件系统端口。

HDFS 使用 8020 作为默认文件系统端口,但你可以根据需要配置不同的端口。通常情况下,你可以通过 hdfs://<namenode-host>:8020 这样的 URL 来访问 HDFS 文件系统。这允许你连接到 Hadoop 集群并执行各种 HDFS 操作,如上传、下载、浏览和管理文件。

如果你的 Hadoop 集群使用不同的端口,你需要相应地修改 URL。端口 8020 是 HDFS 默认端口,但实际部署中可能会有不同的配置。

  1. http://node1:50070

http://node1:50070 是 Hadoop HDFS 的 Web 用户界面(NameNode Web 用户界面)的默认端口。这个 Web 用户界面提供有关 HDFS 群集的状态信息,如文件系统的用量、节点状态、名称节点(NameNode)状态等。这是一个方便的方式来监视和管理你的 HDFS 群集

通常情况下,如果你的 Hadoop HDFS 服务正在运行,并且已按默认配置设置,则你可以通过浏览器访问 http://<namenode-host>:50070 来查看 HDFS Web 用户界面,其中 <namenode-host> 是你的 NameNode 主机名或 IP 地址。在这个 Web 用户界面中,你可以查看有关 HDFS 集群的各种信息和指标。这有助于监控和管理 Hadoop 文件系统。

  1. http://node1:8080

通常情况下,http://node1:8080 是用于访问 Apache Spark 的 Web UI 的端口。在这个 URL 中,node1 通常是你 Spark 集群的主节点(Master)的主机名或 IP 地址,而 8080 是 Spark 的默认 Web UI 端口。

Spark Web UI 提供了有关 Spark 应用程序、作业、阶段、任务等的详细信息,以及有关 Spark 集群状态的信息。你可以在这个 Web 用户界面上监视和调试你的 Spark 应用程序。

请注意,8080 是 Spark 默认的 Web UI 端口,但你可以在 Spark 配置中更改此端口,以适应特定的需求。如果你的集群管理员或 Spark 部署使用了不同的端口,你需要使用相应的端口来访问 Spark Web UI。

  1. http://node1:9864

image-20231018002839976

错误4:无法连接到master:7077(配置文件出错)

image-20231018002003760

解决方案:

image-20231018002128835

image-20231018002621545

最后发现,我的spark-defaults.conf文件出错了,端口配错了

第一个错误:SparkUI的端口尝试了4040和4041,发现4040端口被占用了,4041端口空余,所以我在spark-defaults.conf文件中,将port改为4041

第二个错误:最致命的错误,我把spark和hadoop的web端口配错了,导致无法解析地址

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值