Hadoop集群配置
首先是在网上下载lunix系统下的hadoop安装包,在lunix环境下解压到指定路径。
1.修改hadoop文件的目录权限
修改文件的所有者为当前虚拟机的管理员
chown -R root:root hadoop260/
2.配置hadoop文件下的JDK
在hadoop文件的根目录下输入
vi etc/hadoop/hadoop-env.sh
在配置中输入
export JAVA_HOME=/opt/bigdata/java/jdk180
注意:这里的JAVA_HOME要和/etc/profile配置下的jdk名相同
3.配置hadoop fs文件系统
在hadoop文件的根目录下输入
vi etc/hadoop/core-site.xml
在该配置文件中配置
<configuration>
<property>
<name>fs.defaultFS</name>
<!--集群配置是这里要配置主节点的主机别名,要在/etc/hosts文件中记录别名和ip地址之间的关系-->
<value>hdfs://name:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/bigdata/hadoop/hadoop260</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
写入并退出
4.hadoop replicas 备份
在hadoop文件的同级目录下建一个目录
mkdir hdfs
进入目录hdfs,在目录下建两个mul
mkdir namenode datanode
然后再到hadoop根目录下执行命令
vi etc/hadoop/hdfs-site.xml
在配置文件中配置
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
写入并退出
5.hadoop mapreduce 计算框架配置
mapreduce.jobhistory.address 添加jobhistory访问端口
mapreduce.jobhistory.webapp.address 添加jobhistory web访问端口
拷贝一份文件
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
然后在生成的文件下配置
vi etc/hadoop/mapred-site.xml
配置参数
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
6.hadoop yarn 管理调度的配置
yarn.log-aggregation.retain-seconds 添加yarn日志保留时间为7天(单位秒)
yarn.nodemanager.aux-services.mapreduce.shuffle.class 添加指定shuffle计算具体类型
yarn.resourcemanager.hostname 添加yarn主机名
hadoop根目录下输入
vi etc/hadoop/yarn-site.xml
输入配置信息
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>chenzhen</value>
</property>
</configuration>
7.配置集群的主机名
hadoop slaves 主机名
hadoop根目录下输入
vi etc/hadoop/slaves
配置主机名,这里是三个从机的别名,也是要在/etc/hosts文件中记录别名和ip地址之间的关系
vmclient01
vmclient02
vmclient04
8.配置hadoop 环境变量
配置环境变量
vi /etc/profile
export HADOOP_HOME=/opt/bigdata/hadoop/hadoop260
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$NODE_HOME/bin:$JAVA_HOME/bin:$TOMCAT_HOME/bin:$PATH
让环境变量生效
source /etc/profile
9.hadoop 格式化 HDFS
(1).格式化 HDFS
到hadoop的bin目录下执行下面的操作
hdfs namenode -format
见到以下信息说明格式化成功
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at chenzhen/192.168.109.138(当前节点的ip值)
************************************************************/
如果格式化失败:需要去检查之前各项配置
(2).多次格式化会出现从节点jps命令下的DataNode找不到
解决方法:到hadoop根目录下的dfs目录,然后删除里面的data目录。
将所有出问题的从机下都进行此操作。
10.配置hadoop-native库
在网上下载文件,解压到hadoop下的指定目录即可
tar -xf hadoop-native-64-2.6.0.tar -C /opt/bigdata/hadoop/hadoop260/lib/native/
11.配置从机上的hadoop
因为这里的配置几乎都是在hadoop260/etc/hadoop目录下,所以可以直接远程拷贝该文件到从机的该目录下,当然hadoop文件要在从机上解压好。
在根目录下执行下面的操作
scp /etc/hadoop root@OHTER_HOSTNAME:/opt/bigdata/hadoop/hadoop260/etc
然后再按上面的第八步配置一下环境变量即可
12.启动 hadoop
进入bin目录
cd /opt/bigdata/hadoop/hadoop260/bin
执行
start-all.sh(过期指令,但暂时可以使用)
如果遇到要输入密码,可以先操作以下步骤
cd ~
cd .ssh/
cat id_rsa.pub >> authorized_keys
ssh localhost
然后再重新启动
关闭的话可以使用
stop-all.sh
再启动 jobhistory
cd ../sbin/
./mr-jobhistory-daemon.sh start historyserver
查看集群启动状态
执行jps
主节点上出现
7329 Jps
6548 SecondaryNameNode
6264 NameNode
6697 ResourceManager
7259 JobHistoryServer
从节点上出现
6800 NodeManager
7329 Jps
6387 DataNode
并且浏览器访问三个网址,上面信息正确
http://192.168.109.138: 50070 8088 19888
这就说明集群配置正确