hadoop概述(学习笔记)

思维导图:

一、安装JDK

  1. 下载JDK

    • 访问Oracle官网或其他JDK发行版网站(如OpenJDK)下载适合你操作系统的JDK版本。确保下载的是Linux版本,并且是.tar.gz格式的压缩包。
  2. 解压JDK到指定目录

    • 使用tar命令解压JDK压缩包到指定目录,例如/usr/lib/jvm。假设下载的JDK文件名为jdk-11.0.14_linux-x64_bin.tar.gz,则命令如下:
       

      bash

      sudo tar -zxvf jdk-11.0.14_linux-x64_bin.tar.gz -C /usr/lib/jvm

    • 解压后,可以在/usr/lib/jvm目录下看到一个新的文件夹,通常是jdk-11.0.14(版本号可能不同)。
  3. 设置环境变量

    • 编辑/etc/profile文件,在文件末尾添加JDK的环境变量:
       

      bash

      export JAVA_HOME=/usr/lib/jvm/jdk-11.0.14
      export PATH=$JAVA_HOME/bin:$PATH
    • 保存并关闭文件,然后运行source /etc/profile命令使环境变量生效。
  4. 验证JDK安装

    • 在终端输入java -versionjavac -version命令,如果看到JDK的版本信息,表示JDK安装成功。

二、安装Hadoop

  1. 下载Hadoop

    • 访问Apache Hadoop官网(Apache Hadoop官网)下载适合你需求的Hadoop版本。确保下载的是Linux版本的二进制包,通常是.tar.gz格式的压缩包。
  2. 解压Hadoop到指定目录

    • 使用tar命令解压Hadoop压缩包到指定目录,例如/usr/local/hadoop。假设下载的Hadoop文件名为hadoop-3.3.1.tar.gz,则命令如下:
       

      bash

      sudo tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local

    • 解压后,将解压的文件夹重命名为hadoop(如果名称已经是hadoop,则此步骤可省略):
       

      bash

      sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop

  3. 配置Hadoop环境变量

    • 同样地,编辑/etc/profile文件,在文件末尾添加Hadoop的环境变量:
       

      bash

      export HADOOP_HOME=/usr/local/hadoop
      export PATH=$HADOOP_HOME/bin:$PATH
      export PATH=$HADOOP_HOME/sbin:$PATH
    • 保存并关闭文件,然后运行source /etc/profile命令使环境变量生效。
  4. 配置Hadoop

    • 进入Hadoop的配置目录$HADOOP_HOME/etc/hadoop,编辑以下文件来配置Hadoop:
      • hadoop-env.sh:设置Java环境变量export JAVA_HOME=/usr/lib/jvm/jdk-11.0.14(确保与你的JDK安装路径一致)。
      • core-site.xml:配置Hadoop的文件系统名称和临时数据存储位置等。
      • hdfs-site.xml:配置HDFS的相关属性,如副本数量等。
      • mapred-site.xml(可能名为mapred-site.xml.template,需要重命名):配置MapReduce的相关属性。
      • yarn-site.xml:配置YARN的相关属性。
    • 根据你的具体需求进行配置,可以参考Hadoop的官方文档或相关教程。
  5. 格式化HDFS

    • 在Hadoop安装并配置完成后,首次启动HDFS之前需要格式化HDFS文件系统:
       

      bash

      hdfs namenode -format

    • 注意:该操作会清空HDFS中的所有数据,仅在首次使用时进行。
  6. 启动Hadoop

    • 使用start-dfs.shstart-yarn.sh脚本分别启动HDFS和YARN:
       

      bash

      start-dfs.sh
      start-yarn.sh
    • 可以使用jps 命令来检查 Java 进程,特别是 Hadoop 相关的进程是否已经启动。例如,你会看到 NameNodeDataNodeResourceManagerNodeManager 等进程。
  7. 验证Hadoop安装

    • 使用 jps 命令查看 Java 进程,确认 Hadoop 的相关服务是否已启动。
    • 访问 Hadoop 的 Web UI,默认情况下,NameNode 的 Web UI 可以在 http://localhost:9870/ 访问(注意,根据你的 Hadoop 配置,端口号可能不同),ResourceManager 的 Web UI 可以在 http://localhost:8088/ 访问。
    • 你可以通过这些 Web UI 查看集群的状态、作业信息、节点信息等。
  8. 设置无密码 SSH 访问(可选但推荐)

    • Hadoop 集群中的很多操作需要跨节点执行,为了简化操作,建议设置 SSH 免密登录。
    • 在 Hadoop 集群的每个节点上生成 SSH 密钥对(如果尚未生成):ssh-keygen -t rsa
    • 将每个节点的公钥(默认位于 ~/.ssh/id_rsa.pub)追加到其他节点的 ~/.ssh/authorized_keys 文件中。
    • 测试 SSH 免密登录是否成功。
  9. 配置 Hadoop 集群(如果需要分布式环境)

    • 如果你的 Hadoop 集群不止一个节点,你需要在每个节点上重复上述 JDK 和 Hadoop 的安装步骤。
    • 修改 Hadoop 配置文件(如 core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml),以反映集群的分布式特性,包括设置 NameNode、DataNode、ResourceManager、NodeManager 的位置等。
    • 在每个节点上启动 Hadoop 服务。
  10. Hadoop集群的监控和维护

    • 使用 Hadoop 自带的 Web UI 监控集群状态。
    • 定期查看日志文件,如位于 $HADOOP_HOME/logs 目录下的日志文件,以了解集群的运行情况和潜在问题。
    • 使用 Hadoop 自带的管理工具(如 HDFS 的 fsck 工具)进行数据的校验和修复。
  11. 运行 Hadoop 示例程序

    • Hadoop 自带了一些示例程序,如 WordCount 示例,你可以运行这些程序来测试 Hadoop 集群是否工作正常。
    • 使用 Hadoop 的命令行工具(如 hadoop jar)提交作业到集群。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值