Hadoop 保姆级教程 - 从安装到实践

ChlorineCL

已于 2022-01-25 16:37:20 修改

阅读量3.3k

点赞数 4

分类专栏：大数据文章标签： hadoop big data hdfs

于 2021-11-13 20:29:00 首次发布

本文链接：https://blog.csdn.net/ChlorineCL/article/details/121309317

版权

序言

本教程直接面向华中科技大学计算机专业大数据导论课程结业项目，是基础向教程，不涉及进阶应用

经过一学期的大数据导论学习后，我们突然接到了结业大作业——进行一次大数据分析项目的通知。

刚刚学习了一些大纲类型的知识的我们自然是不知所措的，经过资料查阅后我们决定通过虚拟机搭建Hadoop集群进行伪分布式计算完成该项目~~，然后就开始了安装了20次虚拟机的折磨之路。~~

由于我本人非常反感由于某些原因（如网络教程版本，库名修改等）去在仅使用基础功能的项目中强行使用老版本的，一个正常软件的正常迭代一定是不会删除功能的，一定会有更好的实现方法来替代。只要思想不滑坡，办法总比困难多，这也是本文诞生的初衷之一，遇到问题就要去解决问题，而不是盲目地退回老版本。

本博客同时也作为视频教程的台本方便各位查阅，对Linux基础操作不熟悉的同学可以对着视频一步步操作，对应代码可以直接复制博客中代码。

搭建环境

CentOS v7.9.2009
jdk-8u202-linux-x64（1.8.202）
Hadoop-v3.3.1
VMWare Workstation Player 16

搭建目标

搭建一个1主机+2从机的Hadoop伪分布式集群（因为并没有真正利用到分布式的特性，只是采用了分布式的形式所以叫伪分布式），并进行简单的wordcount示例计算

Hadoop 安装与配置

Ⅰ 系统安装与基础配置

虚拟机环境：VMWare Workstation 16 Player
- 选择该软件的原因有
  - 普适性强：网络上有很多相关资料可供查阅
  - 免费：支持正版！苦逼大学生自然是用不起企业级的Pro版本的~~（如果家境优渥可以考虑一下）另外希望学校可以把Workstation Pro也纳入正版平台~~
  - 如果有方法可以用Pro版，更加稳定（有虚拟网络编辑器）
- 没有虚拟网络编辑器，DHCP动态分配可能导致后续网段不稳定
系统选择：CentOS 7 64-bit
- CentOS，大家的选择！稳定又轻量！而且还免费！
- 安装的时候可以选择最小安装，毕竟安一个桌面没啥用还费资源
安装步骤

虚拟机创建与系统安装

VMWare Player的下载与安装不会的建议自行百度
1. 在Player中选择新建一个虚拟机
2. 在弹出窗口中选择稍后安装（如果此时选择直接安装会默认安装桌面GUI，会占用大量资源且没有作用~~当然如果你电脑强到可以随便霍霍当我没说~~）
3. 一直下一步直到这一步，名称和位置都自己选一下
4. 然后一直下一步到完成即可
5. 在这个界面双击打开虚拟机
6. 进入虚拟机后会弹出一个是否连接的对话框，选择是
7. 进入页面后选择如下选项
8. 在弹出窗口中选择 使用ISO映像 并选择下载的镜像，并勾选 已连接
9. 确定后通过如下方式重启虚拟机，等待进入安装界面
10. 首先选择语言
11. 继续后依次配置需要配置的三项
  - 网络配置[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o2uEodRh-1643099750664)(C:/Users/kirito/AppData/Roaming/Typora/typora-user-images/image-20220125152456308.png)]
  - 软件选择

最低0.47元/天解锁文章

ChlorineCL

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Hadoop 保姆级教程 - 从安装到实践

课题背景经过一学期的大数据导论学习后，我们突然接到了结业大作业——进行一次大数据分析项目的通知。刚刚学习了一些大纲类型的知识的我们自然是不知所措的，经过资料查阅后我们决定通过虚拟机搭建Hadoop集群进行伪分布式计算完成该项目。然后就开始了安装了20次虚拟机的折磨之路本来打算录视频全程教程的，奈何时间紧迫，只能写一个博客帮助学弟学妹少走弯路文中环境：Hadoop-v3.3.1JDK-8u202-linux-x64（1.8.202）CentOS-7-2009我对Hadoop的理解鄙人
复制链接

扫一扫