linux安装hadoop配置Yarn

最新推荐文章于 2024-10-17 09:39:31 发布

正在加载丶

最新推荐文章于 2024-10-17 09:39:31 发布

阅读量4.1k

点赞数 2

分类专栏：大数据学习 linux

本文链接：https://blog.csdn.net/qi49125/article/details/72932230

版权

linux 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

大数据学习

4 篇文章 0 订阅

订阅专栏

1. 下载JDK，安装部署JAVA环境。
 
 
   (1)export JAVA_HOME=/home/xxx/jdk1.6.0_24 
  
(2)export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar 
  
(3)export PATH=$JAVA_HOME/bin:$PATH 
  
 
  
 
 
2. 设置ssh免登录
 
 
   (1) 在机器A上执行ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa，这个命令会在.ssh文件夹下产生id_dsa和id_dsa.pub两个文件，这是ssh的一对私钥和公钥； 
  
(2) 将A的公钥id_dsa.pub分发出去，比如要实现A到B的登录，则将A的公钥注册到B机器的autorized_keys中去；在A上执行cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys，因为本地也需要打通；在B上执行cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys，注意id_dsa.pub是A的公钥； 
  
 
 
3. 下载解压hadoop-2.0.5-alpha，进入到hadoop-2.0.5-alpha/etc/hadoop做如下修改
其中core-env.sh,hdfs-env.sh,mapred-env.sh,yarn-env.sh中的java路径要改成目前使用的java路径。
(1) 修改core-site.xml，配置hdfs

<configuration>
	<property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>

</configuration>

(2) 将mapred-site.xml.template重命名为mapred-site.xml，配置为yarn模式

<configuration>
	<property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
</configuration>

(3) 修改yarn-site.xml

<property>
             <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
            </property>

</configuration>

(4) 修改hdfs-site.xml

<configuration>
 	<property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>	
</configuration>

(6) 启动hdfs
可以使用以下命令分别启动NameNode和DataNode
bin/hadoop namenode -format
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode （如果有多个datanode，需要使用hadoop-daemons.sh）
或者一次启动：sbin/start-dfs.sh

(7) 启动yarn
可以使用以下命令分别启动ResourceManager和NodeManager
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager（若有多个nodemanager，需要使用yarn-daemons.sh）
或者一次启动：sbin/start-yarn.sh

启动 Hadoop 时提示 Could not resolve hostname

如果启动 Hadoop 时遇到输出非常多“ssh: Could not resolve hostname xxx”的异常情况，如下图所示：

启动Hadoop时的异常提示

这个并不是 ssh 的问题，可通过设置 Hadoop 环境变量来解决。首先按键盘的 ctrl + c 中断启动，然后在 ~/.bashrc 中，增加如下两行内容（设置过程与 JAVA_HOME 变量一样，其中 HADOOP_HOME 为 Hadoop 的安装目录）：

   
   export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

保存后，务必执行 source ~/.bashrc 使变量设置生效，然后再次执行 ./sbin/start-dfs.sh 启动 Hadoop。

启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”（如果 SecondaryNameNode 没有启动，请运行 sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试）。如果没有 NameNode 或 DataNode ，那就是配置不成功，请仔细检查之前步骤，或通过查看启动日志排查原因。

通过jps查看启动的Hadoop进程

Hadoop无法正常启动的解决方法

一般可以查看启动日志来排查原因，注意几点：

启动时会提示形如 “DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.out”，其中 DBLab-XMU 对应你的机器名，但其实启动日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.log 中，所以应该查看这个后缀为 .log 的文件；
每一次的启动日志都是追加在日志文件之后，所以得拉到最后面看，对比下记录的时间就知道了。
一般出错的提示在最后面，通常是写着 Fatal、Error、Warning 或者 Java Exception 的地方。
可以在网上搜索一下出错信息，看能否找到一些相关的解决方法。

此外，若是 DataNode 没有启动，可尝试如下的方法（注意这会删除 HDFS 中原有的所有数据，如果原有的数据很重要请不要这样做）：

   
   # 针对 DataNode 没法启动的解决方法
./sbin/stop-dfs.sh   # 关闭
rm -r ./tmp     # 删除 tmp 文件，注意这会删除 HDFS 中原有的所有数据
./bin/hdfs namenode -format   # 重新格式化 NameNode
./sbin/start-dfs.sh  # 重启

成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

Hadoop的Web界面

开启后通过 jps 查看，可以看到多了 NodeManager 和 ResourceManager 两个后台进程，如下图所示。

开启YARN

启动 YARN 之后，运行实例的方法还是一样的，仅仅是资源管理方式、任务调度不同。观察日志信息可以发现，不启用 YARN 时，是 “mapred.LocalJobRunner” 在跑任务，启用 YARN 之后，是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况：http://localhost:8088/cluster，如下图所示。

开启YARN后可以查看任务运行信息

但 YARN 主要是为集群提供更好的资源管理与任务调度，然而这在单机上体现不出价值，反而会使程序跑得稍慢些。因此在单机上是否开启 YARN 就看实际情况了。

不启动 YARN 需重命名 mapred-site.xml

如果不想启动 YARN，务必把配置文件 mapred-site.xml 重命名，改成 mapred-site.xml.template，需要用时改回来就行。否则在该配置文件存在，而未开启 YARN 的情况下，运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的错误，这也是为何该配置文件初始文件名为 mapred-site.xml.template。

正在加载丶

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录