大数据实验 实验一:熟悉常用的 Linux 操作和 Hadoop 操作

一 实验目的

  1. 掌握Linux虚拟机的安装方法。Hadoop 在 Linux 操作系统上运行可以发挥最佳性能。鉴于目前很多读者正在使用Windows操作系统,因此,为了完成本书的后续实验,这里有必要通过本实验让读者掌握在windows操作系统上搭建Linux虚拟机的方法。
  2. 掌握常用的 Linux 命令。本书的所有实验都在Linux操作系统中完成,因此,需要读者熟悉一些常用的Linux命令。
  3. 掌握Hadoop的伪分布式安装方法。很多读者并不具备集群开发环境,而Hadoop操作需要在一台机器是哪个模拟一个小的集群,因此,需要通过本实验让读者掌握在单机上进行Hadoop的伪分布式安装方法。
  4. 掌握Hadoop的常用操作。熟悉使用一些基本的Shell命令对Hadoop进行操作,包括创建目录、复制文件、查看文件。

二 实验平台

  • 操作系统:Windows操作系统或者Ubuntu操作系统(推荐);
  • 虚拟机软件:推荐使用的开源虚拟机软件为VirtualBox。VirtualBox是一款功能强大的免费虚拟机软件,不仅具有鲜明的特色、优异的性能,而且简单易用,可虚拟的操作系统包括Windows、macOS、Linux、OpenBSD、Solaris、IBM OS2,甚至Android 4.0操作系统等。读者可以在Windows操作系统上安装VirtualBox软件,然后在VirtualBox上安装并且运行Linux操作系统。本次实验默认的Linux发行版本为Ubuntu 18.04(或Ubuntu 16.04)
  • Hadoop 版本:3.1.3。

三 实验内容和要求

1 安装虚拟机

如果读者正在使用Linux操作系统,可以跳过本步,不需要下载相关软件,也不需要安装Linux虚拟机;如果读者正在使用Windows操作系统,则需要在Windows操作系统行安装Linux虚拟机,这里就要下载VirtualBox软件和Ubuntu 18.04(或Ubuntu 16.04)镜像文件。
VirtualBox软件的下载地址:
https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe
Ubuntu 18.04的镜像文件下载地址:
https://ubuntu.com/download/desktop
Ubuntu 16.04的镜像文件下载地址:
https://www.ubuntu.org.cn/download/ubuntu-kylin
首先,在Windows操作系统上安装虚拟机软件VirtualBox;其次,在虚拟机软件上安装Ubuntu 18.04(或Ubuntu 16.04)操作系统。具体安装方法,可以参考网络资料,也可以参考本书官网(http://dblab.xmu.edu.cn/post/bigdata3/)的“教材配套大数据软件安装和编程实践指南”栏目。

2 熟悉常用的Linux命令

  • cd 命令:切换目录
    - 切换到目录“/usr/local”
    - 切换到当前目录的上一级目录

    - 切换到当前登录 Linux 系统的用户的自己的主文件夹

  • ls 命令:查看文件与目录

    • 查看目录“/usr”下的所有文件和目录
    • 进入“/tmp”目录,创建目录“a1/a2/a3/a4”
  • rmdir 命令:删除空的目录

    • 将上面创建的目录 a(在“/tmp”目录下面)删除。
    • 删除上面创建的目录“a1/a2/a3/a4” (在“/tmp”目录下面),然后查看“/tmp”目录下面存在哪些目录
  • cp 命令:复制文件或目录

    • 将当前用户的主文件夹下的文件.bashrc 复制到目录“/usr”下,并重命名为 bashrc1
    • 在目录“/tmp”下新建目录 test,再把这个目录复制到“/usr”目录下
  • mv 命令:移动文件与目录,或更名

    • 将“/usr”目录下的文件 bashrc1 移动到“/usr/test”目录下
    • 将“/usr”目录下的 test 目录重命名为 test2
  • rm 命令:移除文件或目录

    • 将“/usr/test2”目录下的 bashrc1 文件删除
    • 将“/usr”目录下的 test2 目录删除
  • cat 命令:查看文件内容

    • 查看当前用户主文件夹下的.bashrc 文件内容
  • tac 命令:反向查看文件内容

    • 反向查看当前用户主文件夹下的.bashrc 文件的内容
  • more 命令:一页一页翻动查看

    • 翻页查看当前用户主文件夹下的.bashrc 文件的内容
  • head 命令:取出前面几行

    • 查看当前用户主文件夹下.bashrc 文件内容前 20 行
    • 查看当前用户主文件夹下.bashrc 文件内容,后面 50 行不显示,只显示前面几行
  • tail 命令:取出后面几行

    • 查看当前用户主文件夹下.bashrc 文件内容最后 20 行
    • 查看当前用户主文件夹下.bashrc 文件内容,并且只列出 50 行以后的数据
  • touch 命令:修改文件时间或创建新文件

    • 在“/tmp”目录下创建一个空文件 hello,并查看文件时间

    • 修改 hello 文件,将文件时间整为 5 天前

  • chown 命令:修改文件所有者权限

    • 将 hello 文件所有者改为 root 帐号,并查看属性
      在这里插入图片描述
  • find 命令:文件查找

    • 找出主文件夹下文件名为.bashrc 的文件
      在这里插入图片描述
  • tar 命令:压缩命令

    • 在根目录“/”下新建文件夹 test,然后在根目录“/”下打包成 test.tar.gz
      在这里插入图片描述
    • 把上面的 test.tar.gz 压缩包,解压缩到“/tmp”目录
  • grep 命令:查找字符串

    • 从“~/.bashrc”文件中查找字符串’examples
  • 配置环境变量

    • 请在“~/.bashrc”中设置,配置 Java 环境变量。首先,使用 vim 编辑器打开文件“~/.bashrc”
    • 查看 JAVA_HOME 变量的值
      在这里插入图片描述

进行Hadoop伪分布式安装

访问hadoop官网(http://Hadoop.apache.org/),下载hadoop安装文件hadoop-3.1.3.tar.gz。在Linux虚拟机环境下完成Hadoop伪分布式环境的搭建,并运行hadoop自带的WordCount实例检测是否运行正常。具体安装方法可以参考网络资料,也可以参考本书官网的“教材配套大数据软件安装和编程实践指南

熟悉常用的 Hadoop 操作

  • 使用 hadoop 用户登录 Linux 系统 , 启动 Hadoop ( Hadoop 的安装目录为 “/usr/local/hadoop”),为 hadoop 用户在 HDFS 中创建用户目录“/user/hadoop”;在这里插入图片描述

  • 接着在 HDFS 的目录“/user/hadoop”下,创建 test 文件夹,并查看文件列表
    在这里插入图片描述在这里插入图片描述

  • 将 Linux 系统本地的“~/.bashrc”文件上传到 HDFS 的 test 文件夹中,并查看 test在这里插入图片描述

  • 将 HDFS 文件夹 test 复制到 Linux 系统本地文件系统的“/usr/local/hadoop”目录下。在这里插入图片描述

出现的问题

在安装hadoop过程中访问server:9870端口发现Livenode数量为0在这里插入图片描述
(解决之前是0)
使用jps命令发现Datanode无法启动(运行列表中只有5个正在运行)
通过查csdn发现是因为在之前配置的时候多次 hadoop namenode -format 导致 datanode 的version 里的Cluster-Id 不一致

解决方案

删除hadoop配置文件core-site.xml中指定的缓存数据路径中的数据,然后进行格式化操作。
在core-site.xml文件中找到缓存路径使用
rm -rf /opt/module/hadoop-3.1.3/data 删除之前的文件夹
之后用
hadoop namenode -format重新格式化 datanode
使用stop-all.sh 和start-all.sh来重启hadoop集群在这里插入图片描述
问题解决

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值