Hadoop单点部署，安装和管理

qq_58647543

已于 2023-11-29 10:01:17 修改

阅读量793

点赞数 1

分类专栏： hadoop 文章标签： hadoop 大数据分布式

于 2023-11-20 16:48:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_58647543/article/details/134512470

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.配置开发环境 - JavaJDK的配置

任务要求
评论

任务描述

本关任务：配置JavaJDK。

相关知识

配置开发环境是我们学习一门IT技术的第一步，Hadoop是基于Java开发的，所以我们学习Hadoop之前需要在Linux系统中配置Java的开发环境。

下载JDK

前往Oracle的官网下载JDK： Java Downloads | Oracle

我们可以先下载到本地，然后从Windows中将文件传入到虚拟机中。也可以复制链接地址，在Linux系统中下载，不过复制链接地址不能直接下载，因为Oracle做了限制，地址后缀需要加上它随机生成的随机码，才能下载到资源。

所以我们可以点击下载，然后暂停，最后在下载管理中复制链接地址就可以在Linux系统中下载啦。

因为JDK的压缩包有大概200M，所以我们已经在平台中为你下载好了JDK，不用你再去Oracle的官网去下载了，如果你要在自己的Linux系统中安装，那么还是需要下载的。

我们已经将JDK的压缩包放在系统的/opt目录下了，在命令行中切换至该目录下即可。

解压

首先在右侧命令行中创建一个/app文件夹，我们之后的软件都将安装在该目录下。命令：mkdir /app

然后，切换到/opt目录下，来查看一下提供的压缩包。

可以看到我们已经帮你下载好了JDK和Hadoop的安装文件。

现在我们解压JDK并将其移动到/app目录下。

tar -zxvf jdk-8u171-linux-x64.tar.gz
mv jdk1.8.0_171/ /app

可以切换到/app目录下查看解压好的文件夹。

配置环境变量

解压好JDK之后还需要在环境变量中配置JDK，才可以使用，接下来就来配置JDK。输入命令：vim /etc/profile 编辑配置文件；

在文件末尾输入如下代码（不可以有空格）：

然后，保存并退出。(按esc键输入 :wq! )

最后：source /etc/profile使刚刚的配置生效。

测试

最后我们可以测试一下环境变量是否配置成功。输入：java -version 出现如下界面代表配置成功。

编程要求

根据上述步骤完成Java开发环境的配置即可。

2.Hadoop单点部署，安装和管理

任务描述

本关任务：安装配置Hadoop开发环境。

相关知识

下载Hadoop

我们去官网下载：Apache Hadoop 在平台上已经帮你下载好了（在/opt目录下），这里只是展示一下下载步骤。

输入wget下载Hadoop；

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

如果是生产环境就需要验证文件的完整性，在这里就偷个懒了。

由于解压包有大概300M，所以我们已经预先帮你下载好了，切换到/opt目录下即可看到。接下来解压Hadoop的压缩包，然后将解压好的文件移动到/app目录下。

我们来切换到app目录下修改一下hadoop文件夹的名字。

提示：如果出现文件解压大小限制的情况，可以使用 ulimit -f 1000000 命令来解除限制。

配置Hadoop环境

接下来我们开始配置Hadoop开发环境。咱们来搭建一个单节点的集群，配置一个伪分布式，为什么不做分布式呢？其实分布式的配置和伪分布式差不多，只是分布式机器增加了而已，其他没什么两样，所以作为Hadoop学习我们搭建伪分布式要更好一点，不过后期我们会搭建真正的分布式环境。好了，开始吧。你可以和我一起来，也可以看官方文档：Apache Hadoop 3.1.0 – Hadoop: Setting up a Single Node Cluster.

设置SSH免密登录

在之后操作集群的时候我们需要经常登录主机和从机，所以设置SSH免密登录时有必要的。

输入如下代码：

ssh-keygen -t rsa -P ''

生成无密码密钥对，询问保存路径直接输入回车，生成密钥对：id_rsa和id_rsa.pub，默认存储在~/.ssh目录下。接下来：把id_rsa.pub追加到授权的key里面去。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

然后修改权限：

chmod 600 ~/.ssh/authorized_keys

接着需要启用RSA认证，启动公钥私钥配对认证方式：
vim /etc/ssh/sshd_config 如果提示权限不足在命令前加上sudo；修改ssh配置：

RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile %h/.ssh/authorized_keys # 公钥文件路径

重启SSH(在本地自己的虚拟机中可以重启，在平台不可以重启哦，也不需要，重启了你就连接不上命令行了！)

service ssh restart

好了准备工作已经做完了，我们要开始修改Hadoop的配置文件了，总共需要修改6个文件。分别是：

hadoop-env.sh；
yarn-env.sh ；
core-site.xml；
hdfs-site.xml；
mapred-site.xml；
yarn-site.xml。

我们一个一个接着来配置吧！

hadoop-env.sh 配置

两个env.sh文件主要是配置JDK的位置

提示：如果忘记了JDK的位置了，输入 echo $JAVA_HOME就可以看到哦。

首先我们切换到hadoop目录下

cd /app/hadoop3.1/etc/hadoop/

编辑 hadoop-env.sh在文件中插入如下代码：

# The java implementation to use.
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/app/jdk1.8.0_171

yarn-env.sh 配置

编辑yarn-env.sh 插入如下代码：

export JAVA_HOME=/app/jdk1.8.0_171

core-site.xml配置

这个是核心配置文件我们需要在该文件中加入HDFS的URI和NameNode的临时文件夹位置，这个临时文件夹在下文中会创建。在文件末尾的configuration标签中添加代码如下：

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
<description>HDFS的URI，文件系统://namenode标识:端口号</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
<description>namenode上本地的hadoop临时文件夹</description>
</property>
</configuration>

hdfs-site.xml文件配置

replication指的是副本数量，我们现在是单节点，所以是1。

<configuration>
<property>
<name>dfs.name.dir</name>
<value>/usr/hadoop/hdfs/name</value>
<description>namenode上存储hdfs名字空间元数据 </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/hadoop/hdfs/data</value>
<description>datanode上数据块的物理存储位置</description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

mapred-site.xml文件配置

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

yarn-site.xml配置

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.2.10:8099</value>
<description>这个地址是mr管理界面的</description>
</property>
</configuration>

创建文件夹

我们在配置文件中配置了一些文件夹路径，现在我们来创建他们，在/usr/hadoop/目录下使用hadoop用户操作，建立tmp、hdfs/name、hdfs/data目录，执行如下命令：

mkdir -p /usr/hadoop/tmp
mkdir /usr/hadoop/hdfs
mkdir /usr/hadoop/hdfs/data
mkdir /usr/hadoop/hdfs/name

将Hadoop添加到环境变量中

vim /etc/profile

在文件末尾插入如下代码：

最后使修改生效：source /etc/profile

验证

现在配置工作已经基本搞定，接下来只需要完成：1.格式化HDFS文件、2.启动hadoop、3.验证Hadoop 即可。

格式化

在使用Hadoop之前我们需要格式化一些hadoop的基本信息。使用如下命令：

hadoop namenode -format

出现如下界面代表成功：

启动Hadoop

接下来我们启动Hadoop：

start-dfs.sh

输入命令应该会出现如下图界面：

这个是表示启动没成功，是因为root用户现在还不能启动hadoop，我们来设置一下就可以了。

在/hadoop3.1/sbin路径下： cd /app/hadoop3.1/sbin。将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

还有，start-yarn.sh，stop-yarn.sh顶部也需添加以下：

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

再次启动start-dfs.sh，最后输入命令 jps 验证,出现如下界面代表启动成功：

之后如果你是图形化界面，可以在你虚拟机的图形化界面中打开火狐浏览器输入：http://localhost:9870/ 或者在windows机器上输入http://虚拟机ip地址:9870/ 也可以访问hadoop的管理页面。

好了到了这一步Hadoop就安装完成了。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

qq_58647543 CSDN认证博客专家 CSDN认证企业博客

码龄3年

69: 原创

39万+: 周排名

2万+: 总排名

4万+: 访问

: 等级

1122: 积分

297: 粉丝

414: 获赞

16: 评论

416: 收藏

私信

关注

热门文章

分类专栏

linux 5篇
hadoop 2篇
MySQL 4篇
TiDB 8篇
数据库导出 1篇
minio 1篇
git 1篇
docker 11篇
hive 1篇
spark 9篇
redis 3篇
python 6篇
计算机二级等级考试 4篇
词云 1篇
wordcould 1篇

最新评论

VMware Workstation 虚拟机网络配置为与主机使用同一网络
阿J~: 你真棒，能教教我吗
VMware Workstation 虚拟机网络配置为与主机使用同一网络
qq_58647543: https://blog.csdn.net/qq_58647543/article/details/140317658 看看这个对你有帮助吗？
VMware Workstation 虚拟机网络配置为与主机使用同一网络
qq_58647543: 虚拟网络配置问题虚拟机的网络配置模式会影响虚拟机和主机之间的通信方式。如果使用了 NAT 模式，虚拟机通过主机的网络访问外网，但默认情况下虚拟机和主机可能无法直接通信 NAT 模式更改为桥接模式
VMware Workstation 虚拟机网络配置为与主机使用同一网络
遥枫: 楼主，虚拟机是WINDOWS系统，主机也是WINDOWS系统，我的主机Ping通虚拟机，但是虚拟机Ping不通我的主机，主机是192.168.137.183，虚拟机是 192.168.137.83，但是虚拟机可以联网（访问百度），用的就是我的本地的网络。问题：为啥虚拟机Ping不通我的主机地址？192.168.137.183
如何将SQL文件导入MySQL数据库
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。