hadoop的安装步骤:
1、tar打开文件到指定目录
tar -zxvf hadoop-2.7.3.tar.gz -C /usr/local/software/
2、创建软连接
ln -s /usr/local/software/hadoop-2.7.3 /usr/local/software/hadoop
3、编辑etc/profile文件
#最后一行
export HADOOP_HOME=/usr/local/software/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
4、环境变量生效
source /etc/profile
5、验证Hadoop是否安装成功
hadoop -version
Hadoop 2.7.3
具体安装拷贝过程
默认的hadoop是一种本地执行模式,而在这里讲的是集群分布式模式,所以要修改配置文件,适合集群分布模式。
涉及到需要修改的配置文件
1、hadoop-env.sh
2、core-site.xml
3、hdfs-site.xml
4、mapred-site.xml
5、yarn-site.xml
6、slaves
a、文件hadoop-env.sh
添加:export JAVA_HOME=/usr/local/software/jdk
b、文件core-site.xml
<configuration>
<property>
<name>fs.defaultfs</name>
<value>hdfs://page01</value>
<description>这里的值指的是NameNode的ip地址</description>
</property>
<property>
<name>hadoop.tmp</name>
<value>/usr/local/software/hadoop/tmp</value>
<description>这里的路径默认是NameNode,DataNode等存放数据的公共目录,用户也可以自己单独指定这2类节点的目录</description>
</property>
</configuration>
c、文件hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>指定DataNode存储block的副本数量,默认是3</description>
</property>
</configuration>
d、mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<!--指定mr运行框架为yarn方式-->
<value>yarn</value>
</property>
</configuration>
e、文件yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>page01</value>
</property>
<property>
<name>yarn.namemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
f、文件slaves(这个文件可以拷贝到子节点,但是最好是拷贝) page02 配置文件修改文成之后,进入到后续工作 1、通过scp复制/usr/local/software/hadoop到所有节点(注意;scp不支持软连接复制) scp -r /usr/local/software/hadoop-2.7.3 root@page02:/usr/local/software/ 2、分别登录到page02创建软连接 ln -s hadoop-2.7.3 hadoop 3、分发page01的/etc/profile文件到所有主机 scp /etc/profile root@page02:/etc/ 记住:最后分别执行source /etc/profile命令! 格式化+启动集群 1、page01格式化hadoop的hdfs 格式化的目的:启动hadoop之前要对hadoop格式化,好比新买的移动硬盘是之前要进行格式化,格式化之后才能使用 格式化的目的是为了对磁盘上的空间按照一定的文件格式进行处理(生成某些需要的文件目录等等) hadoop namenode -format 2、启动Hadoop集群 start-all.sh(start-dfs.sh+start-mapred.sh) stop-all.sh(stop-dfs.sh+stop-mapred.sh) 3、jps查看进程 [root@page01 /usr/local/software]#jps 2272 NameNode 2245 SecondaryNameNode 22260 ResourceManager 2954 Jps web页面查看集群 1、先关闭防火墙 service firewalled status service firewalled stop
小知识:永久关闭防火墙 //永久关闭 sudo chkongfig firewalld off //开启 sudo chkconfig firewalld on
2、通过浏览器访问hdfs和yarn 通过http://page01:50070查看NameNode是否正常启动 通过浏览器http://page01:8088查看ResourceManager进行查看: 初步使用: 1、HDFS hadoop fs -put word2.txt hdfs://page011/ hadoop fs -cat hdfs://page01/word.txt xxxx内容 2、MapReduce cd /usr/local/software/hadoop/share/hadoop/mapreduce/ ls -al hadpoo-mapreduce-examples2.7.3.jar 启动: hadppo jar hadpoo-mapreduce-examples2.7.3.jar wordcount hdfs://page01/word_02.txt hdfs://page01/output/ 运行完成查看结果: hadoop fs -ls hdfs://page01/output/ hadoop fs -cat hdfs://page01/output/part-r-00000 就会看到每个单词的数量 hadoop启动完成是看不到JobHistory的任务日志,所以我们需要安装一份 Jobhistory查看已经运行的MapReduce作业任务记录,比如用多少个Map、多少个Reduce、作业提交时间、作业的启动时间、 作业完成时间等默认情况下,历史服务器是没有启动的,需要进行参数配置才能完成启动。 具体安装步骤: 涉及到要修改配置文件:yarn-site.xml mapred-site.xml 1、文件yarn-site.xml
<property>
<!--开启日志聚合-->
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
2、文件mapred-site.xml
<property>
<!--设置jobhistoryserver 没有配置的话history入口不可用-->
<name>mapreduce.jobhistory.address</name>
<value>page01:10020</value>
</property>
<property>
<!--配置web端口-->
<name>mapreduce.jobhistory.webapp.address</name>
<value>page01:19888</value>
</property>
<property>
<!--配置正在运行中的日志在hdfs上的存放路径-->
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/history/done_intermediate</value>
</property>
<property>
<!--配置运行过的日志存放在hdfs上的存放路径-->
<name>mapreduce.jobhistory.done-dir</name>
<value>/history/done</value>
</property>
3、接下来我们分发配置到其余节点 scp -r /usr/local/software/hadoop/etc/hadoop* root@page02://usr/local/software/hadoop/etc/hadoop/ 4、启动和停止JobHistory mr-jobhistory-daemon.sh start historyserver mr-jobhistory-daemon.sh stop historyserver 查看进程 job 功能性使用: 运行一个job,通过jobhistory查看一下日志 Linux Cnetos服务器时间同步阿里云北京时间 因为后面搭建zookper集群的时候要保证各个节点的时间是一致的,不一致话就会出现问题。 1、查看当前服务器时间 date -R 2、安装ntpdate服务 yum -y install ntpdate 3、直接用域名同步中国上海时间,是阿里云的服务器时间 ntpdate ntp1.aliyun.com 4、查看新事件是否已同步 date -R