《Hadoop》之"踽踽独行"（八）Hadoop集群的启动脚本整理及守护线程源码

最新推荐文章于 2024-09-08 15:48:29 发布

从明老师

最新推荐文章于 2024-09-08 15:48:29 发布

阅读量2k

点赞数 1

分类专栏： hadoop 大数据文章标签： Hadoop启动脚本 start-all.sh start-dfs.sh namenode源码 datanode源码

本文链接：https://blog.csdn.net/Michael__One/article/details/86141142

版权

本文详细解析了Hadoop集群的启动脚本，包括start-all.sh、hadoop-config.sh、start-dfs.sh等，阐述了它们的执行顺序和作用。同时，介绍了如何通过hadoop-daemons.sh启动单个守护线程，并探讨了namenode、datanode和secondarynamenode的源码，帮助理解HDFS的内部工作机制。

摘要由CSDN通过智能技术生成

在上一章的伪分布式集群搭建中，我们使用start-dfs.sh脚本启动了集群环境，并且上传了一个文件到HDFS上，还使用了mapreduce程序对HDFS上的这个文件进行了单词统计。今天我们就来简单了解一下启动脚本的相关内容和HDFS的一些重要的默认配置属性。

一、启动脚本

hadoop的脚本/指令目录，就两个，一个是bin/，一个是sbin/。现在，就来看看几个比较重要的脚本/指令。

1、sbin/start-all.sh

# Start all hadoop daemons.  Run this on master node.
# 开启所有的hadoop守护进程，在主节点上运行

echo "This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh"
#这个脚本已经被弃用，使用start-dfs.sh和start-yarn.sh替代

bin=`dirname "${BASH_SOURCE-$0}"`
bin=`cd "$bin"; pwd`

DEFAULT_LIBEXEC_DIR="$bin"/../libexec
HADOOP_LIBEXEC_DIR=${HADOOP_LIBEXEC_DIR:-$DEFAULT_LIBEXEC_DIR}
. $HADOOP_LIBEXEC_DIR/hadoop-config.sh
#运行libexe/hadoop-config.sh指令，加载配置文件

# start hdfs daemons if hdfs is present
if [ -f "${HADOOP_HDFS_HOME}"/sbin/start-dfs.sh ]; then
  "${HADOOP_HDFS_HOME}"/sbin/start-dfs.sh --config $HADOOP_CONF_DIR
   #运行 sbin/start-dfs.sh指令
fi

# start yarn daemons if yarn is present
if [ -f "${HADOOP_YARN_HOME}"/sbin/start-yarn.sh ]; then
  "${HADOOP_YARN_HOME}"/sbin/start-yarn.sh --config $HADOOP_CONF_DIR
  #运行 sbin/start-yarn.sh指令
fi

我们可以看到，这个脚本的内容不多，实际上被弃用了，只不过是在这个start-all.sh脚本中，先执行hadoop-config.sh指令加载hadoop的一些环境变量，然后再分别执行start-dfs.sh脚本和start-yarn.sh脚本。

从此可以看出，我们也可以直接执行start-dfs.sh脚本来启动hadoop集群，无需执行start-all.sh脚本而已。（如果配置了yarn,再执行start-yarn.sh脚本）。

2、libexec/hadoop-config.sh

this="${BASH_SOURCE-$0}"
common_bin=$(cd -P -- "$(dirname -- "$this")" && pwd -P)
script="$(basename -- "$this")"
this="$common_bin/$script"

[ -f "$common_bin/hadoop-layout.sh" ] && . "$common_bin/hadoop-layout.sh"

HADOOP_COMMON_DIR=${HADOOP_COMMON_DIR:-"share/hadoop/common"}
HADOOP_COMMON_LIB_JARS_DIR=${HADOOP_COMMON_LIB_JARS_DIR:-"share/hadoop/common/lib"}
HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_COMMON_LIB_NATIVE_DIR:-"lib/native"}
HDFS_DIR=${HDFS_DIR:-"share/hadoop/hdfs"}
HDFS_LIB_JARS_DIR=${HDFS_LIB_JARS_DIR:-"share/hadoop/hdfs/lib"}
YARN_DIR=${YARN_DIR:-"share/hadoop/yarn"}
YARN_LIB_JARS_DIR=${YARN_LIB_JARS_DIR:-"share/hadoop/yarn/lib"}
MAPRED_DIR=${MAPRED_DIR:-"share/hadoop/mapreduce"}
MAPRED_LIB_JARS_DIR=${MAPRED_LIB_JARS_DIR:-"share/hadoop/mapreduce/lib"}

# the root of the Hadoop installation
# See HADOOP-6255 for directory structure layout
HADOOP_DEFAULT_PREFIX=$(cd -P -- "$common_bin"/.. && pwd -P)
HADOOP_PREFIX=${HADOOP_PREFIX:-$HADOOP_DEFAULT_PREFIX}
export HADOOP_PREFIX
............................
...........省略细节，看重点..............
....................................
#  调用 hadoop-env.sh加载其他环境变量
if [ -f "${HADOOP_CONF_DIR}/hadoop-env.sh" ]; then
  . "${HADOOP_CONF_DIR}/hadoop-env.sh"
fi

这个脚本的作用，其实就是配置了一些hadoop集群的所需要的环境变量而已，内部还执行了hadoop-env.sh脚本，加载其他的比较重要的环境变量，如jdk等等

3、sbin/start-dfs.sh

# Start hadoop dfs daemons.          #开启HDFS的相关守护线程
# Optinally upgrade or rollback dfs state.   #可选升级或回滚DFS状态
# Run this on master node.           #在主节点上运行这个脚本

#这是start-dfs.sh的用法                              单独启动一个clusterId
usage="Usage: start-dfs.sh [-upgrade|-rollback] [other options such as -clusterId]"

bin=`dirname "${BASH_SOURCE-$0}"`
bin=`cd "$bin"; pwd`

DEFAULT_LIBEXEC_DIR="$bin"/../libexec
HADOOP_LIBEXEC_DIR=${HADOOP_LIBEXEC_DIR:-$DEFAULT_LIBEXEC_DIR}
#使用hdfs-config.sh加载环境变量
. $HADOOP_LIBEXEC_DIR/hdfs-config.sh

# get arguments
if [[ $# -ge 1 ]]; then
  startOpt="$1"
  shift
  case "$startOpt" in
    -upgrade)
      nameStartOpt="$startOpt"
    ;;
    -rollback)
      dataStartOpt="$startOpt"
    ;;
    *)
      echo $usage
      exit 1
    ;;
  esac
fi

#Add other possible options
nameStartOpt="$nameStartOpt $@"

#---------------------------------------------------------
# namenodes

NAMENODES=$($HADOOP_PREFIX/bin/hdfs getconf -namenodes)

echo "Starting namenodes on [$NAMENODES]"

#执行hadoop-daemons.sh  调用bin/hdfs指令  启动namenode守护线程
"$HADOOP_PREFIX/sbin/hadoop-daemons.sh" \
  --config "$HADOOP_CONF_DIR" \
  --hostnames "$NAMENODES" \
  --script "$bin/hdfs" start namenode $nameStartOpt

#---------------------------------------------------------
# datanodes (using default slaves file)

if [ -n "$HADOOP_SECURE_DN_USER" ]; then
  echo \
    "Attempting to start secure cluster, skipping datanodes. " \
    "Run start-secure-dns.sh as root to complete startup."
else
  #执行hadoop-daemons.sh  调用bin/hdfs指令 启动datanode守护线程
  "$HADOOP_PRE