【Hadoop集群搭建】JDK安装及配置、Hadoop本地模式部署及测试

1. 安装 SSH 工具

SSH Secure Shell Client 传输软件

FinalShell(推荐使用)

1.1使用SSH工具将JDK安装包上传至虚拟主机hadoop01, hadoop02, hadoop03,sogou500w 数据上传至 hadoop01。

a. 在虚拟主机/usr 目录下创建文件夹 javaJDK 上传至此目录(创建文件夹可能需要 root 角色)

mkdir java

b. 在虚拟主机创建文件夹 sogou, sogou500w 数据上传至此目录

        复制以后请使用 Linux 命令查看一下该文件的前 10 行和后 10 行数据。

mkdir sogou

2. 安装 JDK 并且配置环境变量。

(注意 JDK 需要在三台客户虚拟机上分别独立完整安装配置,为分布式 Hadoop 集群安装部署做准备。)

        直接解压缩 JDK 安装包,如下所示,所在目录为/usr/java 目录下。安装时

        注意:文件夹权限,如果权限不足,需要使用 chmod 命令修改。

2.1 修改文件夹权限为可读可写可执行权限

chomd -R 777 java

2.2 把window主机的jdk拖拽到/usr/java目录下

2.3 解压缩JDK安装包

sudo tar -zxvf /usr/java/jdk-8u212-linux-x64.tar.gz -C /usr/java/

2.4 配置环境变量

        添加 JAVA_HOME 变量并赋值;

        编辑 PATH 变量,添加 JAVA 的 bin 目录,如下图所示内容。

export JAVA_HOME=/usr/java/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

        使环境变量生效。

        验证安装配置成功。

java -version

3. 将 JDK 远程拷贝至虚拟主机 hadoop101,hadoop102并解压缩

环境变量配置后续用xsync集群分发脚本复制粘贴即可。

3.1  将JDK拷贝给虚拟机hadoop101

        解压缩

3.2 将JDK拷贝给虚拟机hadoop102

        解压缩

4. Hadoop 本地模式部署

4.1 下载 hadoop 安装包并上传至虚拟机文件目录

        我下载的版本是3.1.3。 

        在主机 hadoop100 解压缩 hadoop 压缩包,命令如下所示:

获取hadoop安装路径

4.2 配置hadoop环境变量

export HADOOP_HOME= 

export PATH=$:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

4.3 使环境变量生效

source .bash_profile

        执行以下命令验证 hadoop 安装配置成功。 

​​​​​​​hadoop version

        将hadoop从hadoop100拷贝到hadoop101

        将hadoop从hadoop100拷贝到hadoop102

        在/home/2130502441ryx/下创建以下数据目录:

        在此目录下编辑数据文件 wc.input

        在文件内输入以下内容:

        在/home/2130502441ryx/data 下创建文件夹 input,并将/home/gdpu/hadoop-2.8.1/etc/hadoop 目录里下的 xml 文件拷贝至 input 目录下。

5. Hadoop 自带程序测试(StandAlone 模式下)

5.1 grep 官方案例,此案例的功能是将文件中符合规则的内容输出。

        在 data 目录下运行以下 hadoop 命令,命令如下:

hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input ouput 'dfs[a-z.]+'

        查看输出到本地的 output 目录下的结果文件:符合正则表达式 ‘dfs[az.]+’的内容输出到 part-r-00000 结果文件中,另外还有一个文件_SUCCESS 文件,说明 Job 运行成功。

        请将 part-r-00000 结果文件中的内容截图并记录在下面: ​​​​​​​

可以看到符合正则表达式 ‘dfs[az.]+’只有一行。

前面output文件名打错了,修改如下:

        思考题:将 wc.input 文件移动到 input 目录下,现如今要将 input 文件夹下所有文件内容中包含 ‘dfs’的内容提取,并将结果输出到结果目录 output中,请写出相应的 hadoop 执行命令在以下的方框内。并打印输出结果 part-r-00000 文件的内容。

① 将 wc.input 文件移动到 input 目录下

(mv wc.input /home/2130502441ryx/data/input/)

  ② 查看是否成功

 ③ 将符合要求的结果输出到output2中

 ④ 打印输出结果

可以看到有四行包含dfs,前面没有加入wc.input的时候只有一行,加上wc.input里面的三个刚好是4。

5.2 WordCount 官方案例

        运行以下命令,实现对文件内容的单词计数

 

hadoop jar /home/2130502441ryx/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar  wordcount input/wc.input output3

        查看执行结果文件的内容 part-r-00000,输出到以下方框内。

 ① 运行命令

 ② 查看part-r-00000的输出内容

### JDK 安装与环境变量配置 为了成功安装配置 Java Development Kit (JDK),需要按照以下方法操作。首先,在目标机器上下载适合的操作系统的 JDK 版本并进行安装[^1]。对于 Linux 系统,可以通过命令行工具或者图形界面完成安装过程。 接着,配置 JDK 的环境变量是非常重要的一步。这通常涉及设置 `JAVA_HOME` 变量指向 JDK安装路径,并将其加入到系统的 PATH 中以便全局可用[^2]。具体步骤如下: #### 设置 JAVA_HOME 和 PATH 编辑 `.bashrc` 或者 `/etc/profile` 文件来永久化这些更改: ```bash export JAVA_HOME=/usr/lib/jvm/java-<version>-openjdk-amd64 export PATH=$PATH:$JAVA_HOME/bin ``` 保存修改后的文件并通过执行以下命令使新配置生效: ```bash source ~/.bashrc ``` 验证安装是否成功的常用方式是通过终端运行 java 命令检查版本号: ```bash java -version ``` 如果显示的是所期望的 JDK 版本,则说明安装无误[^4]。 ### Hadoop 本地单机模式部署测试 一旦 JDK 成功安装完毕之后,就可以着手于 Hadoop 的本地单节点部署工作了。获取官方发布的稳定版压缩包比如 hadoop-3.1.3.tar.gz 并解压至指定目录。 随后同样需调整相应的环境变量以支持 Hadoop 正常运作。主要包含定义 `HADOOP_HOME` 路径以及再次确认已有的 `JAVA_HOME` 是否正确设定好。 #### 编辑 Hadoop 配置文件 进入 Hadoop 解压根目录下的 etc/hadoop 子目录找到名为 **hadoop-env.sh** 的脚本文件,打开它并将其中的一句默认形式为 `export JAVA_HOME=${JAVA_HOME}` 替换成实际存在的 JDK 地址[^3]: ```bash vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh ``` 更新该行为类似于下面的内容(视具体情况而定): ```bash export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ``` 最后启动服务前可以简单创建一些用于 MapReduce 处理的数据集作为输入样本数据存储在用户家目录下新建的一个子文件夹里: ```bash mkdir ~/input cd ~/input echo "Hello World" > input.txt ``` 此时具备条件去尝试提交第一个简单的 WordCount 类型的任务给这个刚刚建立起来的小规模实验平台来进行初步的功能验证了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值