1.编辑profile文件
export JAVA_HOME=/usr/lib/jvm/jdk/
export HADOOP_INSTALL=/sur/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOMR=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME-$HADOOP_INSTALL
通过如上配置就可以让系统找到JDK和Hadoop的安装路径。
然后进入Hadoop所在的目录:
cd /usr/local/hadoop/etc/hadoop
2.编辑hadoop-env.sh文件
vim hadoop-env.sh
加入下面内容:
export JAVA_HAME=/usr/lib/jvm/jdk/
3.配置core-site.xml文件
vim core-site.xml
加入下面内容:
<configuration>
/*这里的值指的是默认的hdfs路径*/
<property>
<name>fs.defultFS<name>
<value>hdfs://Master:9000</value>
</property>
/*缓冲区大小:io.file.buffer.size默认是4KB*/
<property>
<name>io.file.buffer.size</naem>
<value>131072<value>
</propertr>
/*临时文件夹路径*/
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home//tmp</value>
<description>Abase for other temporary directories. </description>
</property>
<property>
<name>hadoop.proxyuser.hduser.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.poxyuser.hduser.groups</name>
<value>*</value>
</property>
</configuration>
4.配置yarn-site.xml文件
加入下面内容:
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<neme>yarn.nodemanager.aux-service.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
/*resourcemanager的地址*/
<property>
<name>yarn.resourcemanager.address</name>
<value>Master:8032</value>
</property>
/*调度器的端口*/
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>Master1:8030</value>
</proterty>
/*resource-tracker端口*/
<property>
<name>yarn.resourcesmanager.resource-tracker.address</name>
<value>Master:8031</value>
</property>
/*resourcemanager管理器端口*/
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>Master:8033</value>
</property>
/*Resourcemanager的web端口,监控job的资源调度*/
<property>
<name>yarn.resourcemanager.webapp.adress</name>
<value>Master:8088</value>
</property>
</configuration>
5.配置mapred-site.xml.template文件
加入下面内容:
<configuration>
/*hadoop对map-duce运行框架一共提供了三种实现,在mapred-site.xml.template中通过“mapreduce.framwork.name"这个属性来设置为"classic"、"yarn"、"local"*/
<property>
<name>mapreduce.framwork.name</name>
<value>yarn<value>
</property>
/*Mapreduce JobHistory.address地址*/
<property>
<name>mapreduce.jobhistory.address</name>
<value>Master:10020</value>
</property>
/*Mapreduce jobhistory server web ui地址*/
<property>
<name>mapreduce.jobhistory.webapp.adresss</name>
<value>Master:19888</value>
</property>
</configuration>
6.创建namenode和 datanode文件夹目录,并配置其相应路径
注意在root模式下创建
mkdir /hdfs/namenode
mkdir /hdfs/datanode
7.返回目录/usr/local/hadoop/etc/hadoop,配置hdfs-site.xml文件,在文件中添加下面内容:
<configuration>
/*配置主节点名和端口号*/
<property>
<name>dfs.namenode.secondary.http-adress</name>
<value>Master:9001</value>
</property>
/*配置从节点名个端口号*/
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hdfs/namenode</value>
</property>
/*配置datanode的数据存储目录*/
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hdfs/datanode</value>
<property>
/*配置副本数*/
<property>
<name>dfs.replication</name>
<value>3<value>
</property>
/*将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS、LISTFILEDTATUS等需要列出文件、文件夹状态的命令,因为这些信息都是由namenode保存的*/
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
8.配置Master和Slave文件
1)Master文件负责配置主节点的主机名。例如,主节点名为Master,则需要在Master文件添加一下内容
Master /*Master为主节点主机名*/
2)配置Slave文件添加从节点主机名,这样主节点就可以通过配置文件找到从节点和从节点进行通信。例如,以Slave1~Slave5为从节点主机名,就需要在Slaves文件中添加如下信息。
/Slave*为从节点主机名*/
Slave1
Slave2
Slave3
Slave4
Slave5
9.将hadoop的所有文件通过pssh分发到各个节点
执行如下命令:
./pssh -h hosts.txt -r /hadoop /
10.格式化namenode(在Hadoop根目录下)
./bin/hadoop namenode -format
11.启动hadoop
./sbin/start-all.sh