第一类配置:
需要在/etc/hadoop/下配置四个.xml文件
1》.hadoop-env.sh
需要配置 export java_home=/export/servers/java
2》core-site.xml
指定hadoop所使用的文件系统schma,有hdfs,file,fds等等,端口号是指namenode的地址,现在用8020,以前用9000,两个都可以用,但是只能选一个
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:8020</value>
</property>
指定存放hadoop运行时产生文件的储存目录,默认在tmp/Hadoop下
这里需要注意,路径一定要选择到hadoop安装包外边,这样会避免清空文件下的内容
<property>
<name>hadoop.tmp.dir</name>
<value>/export/data/hadoopdata</value>
</property>
2》hdfs-site.xml
指定HDFS副本的数量 默认是3副本
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
指定snn运行的服务器地址端口,也就时说指定namenode的替补服务器的端口,万一namenode挂掉,这俄格副本会及时替补
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>yuybuy02:50090</value>
</property>
3》 mapred-site.xml
这个配置文件首先必须改名,而不是从新创建一个,
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
指定mr运行时框架,这里指定在yarn上,默认是local
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
4》 yarn-site.xml
指定YARN的老大(ResourceManager)的地址
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node01</value>
</property>
NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序默认值:""
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
第二类配置:
在hadoop/etc/hadoop目录下建立slaves文件,
vim slaves
node-1
node-2
node-3
这个配置的原因是要主从节点能相互认识
配置Hadoop环境变量:
vim /etc/profile
export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0 export
PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile
安装完后,把hadoop的安装包scp其他集群,在把环境变量scp给其他集群
以上步骤操作完后,需要集群初始化,------->format
format本质是创建hadoop工作的目录(hadoop.tmp.dir)以及一些初始化工作的文件
format只有首次启动hadoop集群时进行
format通常在namenode所在的机器上执行,
hadoop namenode -format
也就时说,初始化时,hadoop自己建立的core-sute.xml配置种的dir中的目录,
如果想二次初始化,应该提前删掉hadoopformat初始化建立的dir中的目录,
再次format