hadoop伪分布式+spark环境+scala环境

最新推荐文章于 2024-08-14 14:25:28 发布

冬至后

最新推荐文章于 2024-08-14 14:25:28 发布

阅读量792

点赞数 20

文章标签：分布式 hadoop spark

本文链接：https://blog.csdn.net/qq_63439264/article/details/138190304

版权

1.查看Linux是否安装了java jdk，如果查询有其他的java版本，则需要删除

2.解压，压缩包与重命名

3.修改java环境变量

4.配置文件生效 source /etc/profile---也可以写成 . /etc/profile

hadoop的环境配置

1.解压hadoop

2.修改配置文件vi /etc/profile

2.配置mapred-site.xml.template

四、启动服务用户定义

1.用户定义 vi /etc/profile

2.启动hdfs或yarn服务

spark的环境搭建

spark的配置文件位置

1.拷贝文件在解压的目录下的../conf/

/conf/spark-env.sh

2.主配置文件也要写/etc/profile

3. source /etc/profile使环境生效

4.启动集群：spark下sbin目录下：./start-all.sh编辑

5.可用jps看是否有这三个进程

6.查看spark是否安装成功返回主目录下输入spark-submit --version

scala环境搭

1.scala的配置文件，直接写在/etc/profile下

2.source /etc/profile使环境变量生效，接着scala -version查看是否安装成功，出现画线版本号即为成功(或者直接输入scala)编辑

以下是要准备的包：

1.java的包--jdk

2.hadoop的包

spark和scala是基于Hadoop环境部署安装的

3.scala包：

https://www.scala-lang.org/download/all.html

注意：这里spark与scala的包最好都统一版本，还有下以.tgz结尾的包

4.spark包：

Index of /spark/spark-3.5.1 (apache.org)

上传到linux上(记住位置)

首先解压spark

之后在解压scala，与spark的解压同理

hadoop与java也是一样的解压方式

我的文件位置，以下的操作皆为我的文件位置来写

把以上的压缩包都准备好，接下来开始搭建hadoop+spark+scala伪分布式集群

基础环境

注意：在搭建Hadoop的时候需要关闭防火墙与安全上下文(这里默认以及配好ip)

1.修改主机名

hostnamectl set-hostname hadoop[修改的主机名]

bash //启动

2.网络映射

vi /etc/hosts

java环境配置

1.查看Linux是否安装了java jdk，如果查询有其他的java版本，则需要删除

删除命令：rpm -e --nodeps [java名]

2.解压，压缩包与重命名

重命名： mv [原文件] [新文件]

3.修改java环境变量

在最后三行写：vi /etc/profile

export JAVA_HOME=/opt/jdk
export PATH=$JAVA_HOME/bin:$PATH

4.配置文件生效 source /etc/profile---也可以写成 . /etc/profile

hadoop的环境配置

1.解压hadoop

2.修改配置文件vi /etc/profile

在最后三行写！！以下所有的配置文件都是在最后写

#hadoop
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3.配置文件生效，查看hadoop的版本

hadoop集群伪分布式

一、查看是否安装了ssh

主要的圈了起来：

如果没有的话需要安装：
yum install -y openssh-clients openssh-server

2.启动ssh服务

systemctl restart sshd

3.本机生成公钥，私钥和验证文件

回车三次即可

4.将登录的信息复制到验证文件

注意：输入该指令后需要自行输入登录密码

这样就配置好免密登录了可以尝试ssh登录命令查看是否配置成功：

二、HDFS的配置文件

进入到hadoop的配置目录：

以下的配置文件都在这个目录下改

1.配置hadoop-env.sh

在这个配置文件最后换行添加

vi hadoop-env.sh

export JAVA_HOME=/opt/jdk //自己配置文件位置

4.格式化HDFS

配置好HDFS文件系统后首次启动需要进行格式化
注意：不可随意格式化namenode，格式化会删除namenode image和edits文件
再创建新的 image 和 edits，数据将会丢失，需要谨慎使用！！(以及格式化也是在上面的目录下)

hdfs namenode -format

格式化成功后，会在hadoop.tmp.dir配置的/opt/hadoop/tmp目录生成目录dfs/name/current/，里面包含几个文件如下：

如果多次格式化应该做的是

找到这个文件夹下的tmp文件夹，删除这个文件夹，之后在mkdir tmp 一个文件夹

注意：名字不要改，文件夹的位置也不要改

三、YARN的配置

1.进入hadoop配置目录：

cd /opt/hadoop/etc/hadoop/

在这个文件写写入

<configuration>

<property>
<name>yarn.resourcemanager.hostsname</name>
<value>hadoop</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

2.配置mapred-site.xml.template

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

四、启动服务用户定义

1.用户定义 vi /etc/profile

# HADOOP_USER
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

2.启动hdfs或yarn服务

启动：start-dfs.sh

启动：start-yarn.sh

这个目录下

spark的环境搭建

spark的配置文件位置

1.拷贝文件在解压的目录下的../conf/

cd /opt/spark/conf/ //进入目录下

cp spark-env.sh.tmplate spark-env.sh //拷贝

/conf/spark-env.sh

export JAVA_HOME=/opt/jdk //java的解压位置

export HADOOP_HOME=/opt/hadoop //hadoop的解压位置

export HADOOP_CONF_DIR=/opt/hadoop //hadoop的配置文件的位置，如果这个spark安装不起来那就换一个路径，就是hadoop的主配置文件位置 /opt/hadoop/etc/hadoop(如下所示)

export SPARK_MASTER_IP=hadoop //写本机名或者本机IP

export SPARK_LOCAL_IP=hadoop //写本机名或者本机IP

2.主配置文件也要写/etc/profile

配置环境变量 vim /etc/profile

#SPARK
export SPARK_HOME=/opt/spark
export PATH=$PATH:${SPARK_HOME}/bin
export PATH=$PATH:${SPARK_HOME}/sbin

3. source /etc/profile使环境生效

4.启动集群：spark下sbin目录下：./start-all.sh

5.可用jps看是否有这三个进程

6.查看spark是否安装成功返回主目录下输入spark-submit --version

scala环境搭

1.scala的配置文件，直接写在/etc/profile下

export SCALA_HOME=/opt/scala

export PATH=$PATH:${SCALA_HOME}/bin

2.source /etc/profile使环境变量生效，接着scala -version查看是否安装成功，出现画线版本号即为成功(或者直接输入scala)

冬至后

关注

20
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
hadoop伪分布式+spark环境+scala环境

目录基础环境1.修改主机名2.网络映射java环境配置1.查看Linux是否安装了java jdk，如果查询有其他的java版本，则需要删除2.解压，压缩包与重命名3.修改java环境变量4.配置文件生效 source /etc/profile---也可以写成 . /etc/profilehadoop的环境配置1.解压hadoop2.修改配置文件vi /etc/profile3.配置文件生效，查看hadoop的版本hadoop集群伪分布式一、查看是否安装了ssh2.启动ssh服务3.本机生成公钥，私钥和验
复制链接

扫一扫