Hadoop2.10.0环境搭建(单机伪分布)
首先准备一台装有centos7的虚拟机,然后进行下载与安装。
- 下载Hadoop与配置jdk
我们首先从hadoop的 release页面下载需要的版本,我选择的是2.10.0版本,两种文件,source是源代码(想查看源代码可以下载),binary是我们用来搭建环境的安装文件。
将文件解压到你自己的目录(我存放的位置是/usr/local)下:
tar -xvzf /home/syp/etc/haddoop/hadoop-2.10.0.tar.gz(后面的路径是你压缩包的位置)
接下来,配置环境变量,一个java。由于centos自带open-jdk,我们可以查看一下自己java路径,一般在/usr/lib/jvm中查看:
我们选择1.8版本的,配置你的vi /etc/profile文件,添加如下内容:
#set java enviroment
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.b08-0.el7_7.x86_64
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
#set hadoop enviroment
使用命令source ~/.bashrc使得环境变量生效。
至此jdk就配置成功了。
2. 配置ssh
(1)生成秘钥对
ssh-keygen -t rsa
(2)一直按enter,将生成的秘钥对保存在.ssh/id_rsa文件中
(3)进入.ssh目录,执行如下命令:
cp id_rsa.pub authorized_keys
(4)测试能否登录
ssh localost
3. 配置hadoop环境
(1)修改文件/usr/local/hadoop-2.10.0/etc/hadoop/hadoop-env.sh
添加:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.b08-0.el7_7.x86_64
(2)修改文件/usr/local/hadoop-2.10.0/etc/hadoop/yarn-env.sh
添加:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.b08-0.el7_7.x86_64
(3)配置文件/usr/local/hadoop-2.10.0/etc/hadoop/core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>#临时文件存放位置
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>#name节点
<value>hdfs://localhost:9000</value>
</property>
</configuration>
(3)配置文件/usr/local/hadoop-2.10.0/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>#副本数
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>#核心文件位置
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>#数据块文件位置
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
(3)配置文件/usr/local/hadoop-2.10.0/etc/hadoop/yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>127.0.0.1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>127.0.0.1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>127.0.0.1:8031</value>
</property>
- 检查是否安装成功
输入hadoop version,若如下图所示,则安装成功:
(1)格式化HDFS系统
hdfs namenode -format
(2)启动hdfs
start-all.sh
(3)查看进程
jps,若出现六个进程则正确
(4)打开浏览器,输入http://localhost:50070/可以观察到集群的基本信息