hadoop概述（学习笔记）

最新推荐文章于 2024-09-27 14:06:30 发布

2302_80695227

最新推荐文章于 2024-09-27 14:06:30 发布

阅读量685

点赞数 14

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/2302_80695227/article/details/140751331

版权

思维导图：

一、安装JDK

下载JDK
- 访问Oracle官网或其他JDK发行版网站（如OpenJDK）下载适合你操作系统的JDK版本。确保下载的是Linux版本，并且是.tar.gz格式的压缩包。
解压JDK到指定目录
- 使用tar命令解压JDK压缩包到指定目录，例如/usr/lib/jvm。假设下载的JDK文件名为jdk-11.0.14_linux-x64_bin.tar.gz，则命令如下：
  bash
  
  sudo tar -zxvf jdk-11.0.14_linux-x64_bin.tar.gz -C /usr/lib/jvm
- 解压后，可以在/usr/lib/jvm目录下看到一个新的文件夹，通常是jdk-11.0.14（版本号可能不同）。
设置环境变量
- 编辑/etc/profile文件，在文件末尾添加JDK的环境变量：
  bash
  
  export JAVA_HOME=/usr/lib/jvm/jdk-11.0.14
  export PATH=$JAVA_HOME/bin:$PATH
- 保存并关闭文件，然后运行source /etc/profile命令使环境变量生效。
验证JDK安装
- 在终端输入java -version和javac -version命令，如果看到JDK的版本信息，表示JDK安装成功。

二、安装Hadoop

下载Hadoop
- 访问Apache Hadoop官网（Apache Hadoop官网）下载适合你需求的Hadoop版本。确保下载的是Linux版本的二进制包，通常是.tar.gz格式的压缩包。
解压Hadoop到指定目录
- 使用tar命令解压Hadoop压缩包到指定目录，例如/usr/local/hadoop。假设下载的Hadoop文件名为hadoop-3.3.1.tar.gz，则命令如下：
  bash
  
  sudo tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local
- 解压后，将解压的文件夹重命名为hadoop（如果名称已经是hadoop，则此步骤可省略）：
  bash
  
  sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
配置Hadoop环境变量
- 同样地，编辑/etc/profile文件，在文件末尾添加Hadoop的环境变量：
  bash
  
  export HADOOP_HOME=/usr/local/hadoop
  export PATH=$HADOOP_HOME/bin:$PATH
  export PATH=$HADOOP_HOME/sbin:$PATH
- 保存并关闭文件，然后运行source /etc/profile命令使环境变量生效。
配置Hadoop
- 进入Hadoop的配置目录$HADOOP_HOME/etc/hadoop，编辑以下文件来配置Hadoop：
  - hadoop-env.sh：设置Java环境变量export JAVA_HOME=/usr/lib/jvm/jdk-11.0.14（确保与你的JDK安装路径一致）。
  - core-site.xml：配置Hadoop的文件系统名称和临时数据存储位置等。
  - hdfs-site.xml：配置HDFS的相关属性，如副本数量等。
  - mapred-site.xml（可能名为mapred-site.xml.template，需要重命名）：配置MapReduce的相关属性。
  - yarn-site.xml：配置YARN的相关属性。
- 根据你的具体需求进行配置，可以参考Hadoop的官方文档或相关教程。
格式化HDFS
- 在Hadoop安装并配置完成后，首次启动HDFS之前需要格式化HDFS文件系统：
  bash
  
  hdfs namenode -format
- 注意：该操作会清空HDFS中的所有数据，仅在首次使用时进行。
启动Hadoop
- 使用start-dfs.sh和start-yarn.sh脚本分别启动HDFS和YARN：
  bash
  
  start-dfs.sh
  start-yarn.sh
- 可以使用jps 命令来检查 Java 进程，特别是 Hadoop 相关的进程是否已经启动。例如，你会看到 NameNode、DataNode、ResourceManager、NodeManager 等进程。
验证Hadoop安装
- 使用 jps 命令查看 Java 进程，确认 Hadoop 的相关服务是否已启动。
- 访问 Hadoop 的 Web UI，默认情况下，NameNode 的 Web UI 可以在 http://localhost:9870/ 访问（注意，根据你的 Hadoop 配置，端口号可能不同），ResourceManager 的 Web UI 可以在 http://localhost:8088/ 访问。
- 你可以通过这些 Web UI 查看集群的状态、作业信息、节点信息等。
设置无密码 SSH 访问（可选但推荐）
- Hadoop 集群中的很多操作需要跨节点执行，为了简化操作，建议设置 SSH 免密登录。
- 在 Hadoop 集群的每个节点上生成 SSH 密钥对（如果尚未生成）：ssh-keygen -t rsa。
- 将每个节点的公钥（默认位于 ~/.ssh/id_rsa.pub）追加到其他节点的 ~/.ssh/authorized_keys 文件中。
- 测试 SSH 免密登录是否成功。
配置 Hadoop 集群（如果需要分布式环境）
- 如果你的 Hadoop 集群不止一个节点，你需要在每个节点上重复上述 JDK 和 Hadoop 的安装步骤。
- 修改 Hadoop 配置文件（如 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml），以反映集群的分布式特性，包括设置 NameNode、DataNode、ResourceManager、NodeManager 的位置等。
- 在每个节点上启动 Hadoop 服务。
Hadoop集群的监控和维护
- 使用 Hadoop 自带的 Web UI 监控集群状态。
- 定期查看日志文件，如位于 $HADOOP_HOME/logs 目录下的日志文件，以了解集群的运行情况和潜在问题。
- 使用 Hadoop 自带的管理工具（如 HDFS 的 fsck 工具）进行数据的校验和修复。
运行 Hadoop 示例程序
- Hadoop 自带了一些示例程序，如 WordCount 示例，你可以运行这些程序来测试 Hadoop 集群是否工作正常。
- 使用 Hadoop 的命令行工具（如 hadoop jar）提交作业到集群。