大数据实验实验一：熟悉常用的 Linux 操作和 Hadoop 操作

原创已于 2023-11-11 10:12:12 修改

· 1.8k 阅读

20 ·

版权

文章标签：

#大数据 #linux #hadoop #大作业

于 2023-11-10 19:44:47 首次发布

大数据实验专栏收录该内容

7 篇文章

订阅专栏

一实验目的

掌握Linux虚拟机的安装方法。Hadoop 在 Linux 操作系统上运行可以发挥最佳性能。鉴于目前很多读者正在使用Windows操作系统，因此，为了完成本书的后续实验，这里有必要通过本实验让读者掌握在windows操作系统上搭建Linux虚拟机的方法。
掌握常用的 Linux 命令。本书的所有实验都在Linux操作系统中完成，因此，需要读者熟悉一些常用的Linux命令。
掌握Hadoop的伪分布式安装方法。很多读者并不具备集群开发环境，而Hadoop操作需要在一台机器是哪个模拟一个小的集群，因此，需要通过本实验让读者掌握在单机上进行Hadoop的伪分布式安装方法。
掌握Hadoop的常用操作。熟悉使用一些基本的Shell命令对Hadoop进行操作，包括创建目录、复制文件、查看文件。

二实验平台

操作系统：Windows操作系统或者Ubuntu操作系统（推荐）；
虚拟机软件：推荐使用的开源虚拟机软件为VirtualBox。VirtualBox是一款功能强大的免费虚拟机软件，不仅具有鲜明的特色、优异的性能，而且简单易用，可虚拟的操作系统包括Windows、macOS、Linux、OpenBSD、Solaris、IBM OS2，甚至Android 4.0操作系统等。读者可以在Windows操作系统上安装VirtualBox软件，然后在VirtualBox上安装并且运行Linux操作系统。本次实验默认的Linux发行版本为Ubuntu 18.04（或Ubuntu 16.04）
Hadoop 版本：3.1.3。

三实验内容和要求

1 安装虚拟机

如果读者正在使用Linux操作系统，可以跳过本步，不需要下载相关软件，也不需要安装Linux虚拟机；如果读者正在使用Windows操作系统，则需要在Windows操作系统行安装Linux虚拟机，这里就要下载VirtualBox软件和Ubuntu 18.04（或Ubuntu 16.04）镜像文件。
VirtualBox软件的下载地址：
https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe
Ubuntu 18.04的镜像文件下载地址：
https://ubuntu.com/download/desktop
Ubuntu 16.04的镜像文件下载地址：
https://www.ubuntu.org.cn/download/ubuntu-kylin
首先，在Windows操作系统上安装虚拟机软件VirtualBox；其次，在虚拟机软件上安装Ubuntu 18.04（或Ubuntu 16.04）操作系统。具体安装方法，可以参考网络资料，也可以参考本书官网（http://dblab.xmu.edu.cn/post/bigdata3/）的“教材配套大数据软件安装和编程实践指南”栏目。

2 熟悉常用的Linux命令

cd 命令：切换目录
- 切换到目录“/usr/local”
- 切换到当前目录的上一级目录

- 切换到当前登录 Linux 系统的用户的自己的主文件夹
ls 命令：查看文件与目录
- 查看目录“/usr”下的所有文件和目录
- 进入“/tmp”目录，创建目录“a1/a2/a3/a4”
rmdir 命令：删除空的目录
- 将上面创建的目录 a（在“/tmp”目录下面）删除。
- 删除上面创建的目录“a1/a2/a3/a4” （在“/tmp”目录下面），然后查看“/tmp”目录下面存在哪些目录
cp 命令：复制文件或目录
- 将当前用户的主文件夹下的文件.bashrc 复制到目录“/usr”下，并重命名为 bashrc1
- 在目录“/tmp”下新建目录 test，再把这个目录复制到“/usr”目录下
mv 命令：移动文件与目录，或更名
- 将“/usr”目录下的文件 bashrc1 移动到“/usr/test”目录下
- 将“/usr”目录下的 test 目录重命名为 test2
rm 命令：移除文件或目录
- 将“/usr/test2”目录下的 bashrc1 文件删除
- 将“/usr”目录下的 test2 目录删除
cat 命令：查看文件内容
- 查看当前用户主文件夹下的.bashrc 文件内容
tac 命令：反向查看文件内容
- 反向查看当前用户主文件夹下的.bashrc 文件的内容
more 命令：一页一页翻动查看
- 翻页查看当前用户主文件夹下的.bashrc 文件的内容
head 命令：取出前面几行
- 查看当前用户主文件夹下.bashrc 文件内容前 20 行
- 查看当前用户主文件夹下.bashrc 文件内容，后面 50 行不显示，只显示前面几行
tail 命令：取出后面几行
- 查看当前用户主文件夹下.bashrc 文件内容最后 20 行
- 查看当前用户主文件夹下.bashrc 文件内容，并且只列出 50 行以后的数据
touch 命令：修改文件时间或创建新文件
- 在“/tmp”目录下创建一个空文件 hello，并查看文件时间
- 修改 hello 文件，将文件时间整为 5 天前
chown 命令：修改文件所有者权限
- 将 hello 文件所有者改为 root 帐号，并查看属性
find 命令：文件查找
- 找出主文件夹下文件名为.bashrc 的文件
tar 命令：压缩命令
- 在根目录“/”下新建文件夹 test，然后在根目录“/”下打包成 test.tar.gz
- 把上面的 test.tar.gz 压缩包，解压缩到“/tmp”目录
grep 命令：查找字符串
- 从“～/.bashrc”文件中查找字符串’examples
配置环境变量
- 请在“～/.bashrc”中设置，配置 Java 环境变量。首先，使用 vim 编辑器打开文件“~/.bashrc”
- 查看 JAVA_HOME 变量的值

进行Hadoop伪分布式安装

访问hadoop官网（http://Hadoop.apache.org/）,下载hadoop安装文件hadoop-3.1.3.tar.gz。在Linux虚拟机环境下完成Hadoop伪分布式环境的搭建，并运行hadoop自带的WordCount实例检测是否运行正常。具体安装方法可以参考网络资料，也可以参考本书官网的“教材配套大数据软件安装和编程实践指南

熟悉常用的 Hadoop 操作

使用 hadoop 用户登录 Linux 系统，启动 Hadoop （ Hadoop 的安装目录为 “/usr/local/hadoop”），为 hadoop 用户在 HDFS 中创建用户目录“/user/hadoop”；
接着在 HDFS 的目录“/user/hadoop”下，创建 test 文件夹，并查看文件列表
将 Linux 系统本地的“～/.bashrc”文件上传到 HDFS 的 test 文件夹中，并查看 test
将 HDFS 文件夹 test 复制到 Linux 系统本地文件系统的“/usr/local/hadoop”目录下。

出现的问题

在安装hadoop过程中访问server:9870端口发现Livenode数量为0 在这里插入图片描述
(解决之前是0)
使用jps命令发现Datanode无法启动(运行列表中只有5个正在运行)
通过查csdn发现是因为在之前配置的时候多次 hadoop namenode -format 导致 datanode 的version 里的Cluster-Id 不一致

解决方案

删除hadoop配置文件core-site.xml中指定的缓存数据路径中的数据，然后进行格式化操作。
在core-site.xml文件中找到缓存路径使用
rm -rf /opt/module/hadoop-3.1.3/data 删除之前的文件夹
之后用
hadoop namenode -format重新格式化 datanode
使用stop-all.sh 和start-all.sh来重启hadoop集群在这里插入图片描述
问题解决