YARN(Hadoop)学习笔记(1)

1. 下载JDK

由于Hadoop分布式平台框架是根据Java编写的,所以需要有JDK的支持。

从ORACLE官网上下载JDK。这里需要注意的是下载和OS配套的版本。一般分为x86和x64两个版本。可以通过命令uname–r查看版本。下载后解压缩就可以了。

在实践中,我发现JDK需要解压到usr目录下,否则不能成功部署。

2. 修改环境变量


Linux环境变量的配置是通过修改/etc/profile中的文件实现的。输入 vi /etc /profile 用vi编辑器打开profile文件。根据JDK的位置添加或修改JAVA_HOME,PATH,CLASSPATH几个变量。


3. 使用java –version查看是否成功配置JDK

这一步并不是必须的,但作为大量结点构成的集群,设置无密码登陆可以更加方便工作。但需要注意的是集群外的机子需要访问时仍需要输入密码。

1.) 在master上生成密钥。使用 ssh-keygen –t rsa。之后一直enter即可。该命令生成三个三个文件。id_rsa,id_rsa.pub,authorized_keys

2. )复制私钥到slave。使用scp /root/.ssh/authorized_keys  slave:~/.ssh/。将authorized_keys私钥文件复制到目标机的相应目录。

3. )测试连接。在master上ssh连接salve。如果部署成功则不需要输入密码就可以实现连接。

这一步只需要将要加入集群中的server的IP和hostname添加到/etc/hosts文件中即可。

这一步cluster中的所有结点都要进行。并且根据实践情况来看,放置在同样的目录下会更利于后续个工作。


1. 下载hadoop包

Apache官网上的hadoop默认的是32bit的,而85或者86的机器用的是centOS的64bit的系统。所以需要进行编译。具体步骤参考文档。实际工作中我用的是海鸥给我发的编译好的hadoop-2.3.0.tar.gz文件。

2. 解压hadoop包。使用命令 tar xvf hadoop-2.3.0即可。

3. 配置环境变量。与配置JDK的方式基本相同,及修改/etc/profile

目前只需要修改六个配置文件,均在hadoop-2.3.0/etc/hadoop目录下,分别是,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml.template,master和slaves。请注意这些文件所在的目录,至少对于hadoop的2.3.0和2.2.0版本是对的,并不像一些参考书上说的在conf目录下面。

1.)配置hadoop-env.sh

该文件是bash脚本文件。用于记录hadoop运行的环境变量。如下所示,添加JAVA_HOME和HADOOP_HOME变量。

2. )配置core-site.xml

该文件用于配置hadoop的核心,如HDFS和MapReduce常用的I/O。在<configuration></configuration>中添加property

3. )配置hdfs-site.xml

该文件用于配置hadoop的守护进程。同样只需要在<configuration></configuration>中添加property。

4. )配置mapred-site.xml.template

这个文件用于配置mapreduce的守护进程。同样只需要在<configuration></configuration>中添加property

5. )配置master

将作为master的IP添加进文件即可。master是一个普通的文本文件,在默认的目录下没有,需要通过touch master创建。

6. 配置slaves

将作为slaves的IP添加进文件即可。有多个slave的情况要不全部的slave都添加上。

启动YARN

1. 格式化HDFS

使用 hadoopnamenode –format命令。注意是命令的字母全小写,而在陆嘉恒的《Hadoop实战第二版》中用的是大写,实践发现应该是小写。

当出现如图中红色方框的内容表示格式化成功了。

2. 启动HDFS

执行sbin目录下的start-dfs.sh。

3. 查看进程

使用jps查看。Jps用于查看当前系统中的java进程。

在master上输入jps,显示有三个进程,jps,RM,SecondaryNameNode

在slave上输入jps,显示三个进程,jps,datanode,resourcenamager。

4. 启动yarn

方式和启动HDFS类似,在master上的目录sbin下使用脚本,yarn-daemons.shstart resourcemanager即可。

其实,也可以使用一句命令,同时启动HDFS和yarn。这就是同样在sbin目录下运行start-all.sh。不过根据实践情况来看,需要先执行stop-all.sh,在执行start-all.sh。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值