第一步:使用Vmware搭建一个虚拟机。我使用的镜像是CentOS-7-x86_64-DVD-1804.iso
第二步:搭建完成虚拟机后进行环境的配置
1.安装jdk,并配置环境变量,建议jdk8。安装步骤可参考 https://www.cnblogs.com/Dylansuns/p/6974272.html
2.下载hadoop,我用的是hadoop2.4.1,将其解压至 /usr/local/hadoop文件下,自己创建文件夹。
3.进行hadoop环境变量配置
在/etc/profile中配置,如下
export HADOOP_HOME=/usr/local/hadoop2.4.1/hadoop-2.4.1
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS='-Djava.library.path=$HADOOP_HOME/lib'
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
第三步: 开始进行文件的配置,需要配置的文件有core-site.xml,hdfs-site.xml,mapred-site.xml.template,yarn-site.xml,slave
下面开始进行各个文件的配置
1.core-site.xml 核心公共配置
在configuration标签中配置如下内容
<!-- 制定HDFS的老大(NameNode)的地址,其中zxy为你本机的hostname,需要到/etc/hosts文件中配置-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://zxy:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录,没有可自己创建-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop2.4.1/hadoop-2.4.1/data/</value>
</property>
2.hdfs-site.xml 可以理解为存储配置
在configuration标签中配置如下内容
<!-- 指定HDFS副本的数量-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
3.mapred-site.xml 可以理解为对数据运算进行配置
在configuration标签中配置如下内容
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
4.yarn-site.xml 可以理解为对业务调度进行配置
在configuration标签中配置如下内容
<!-- Site specific YARN configuration properties -->
<!-- 指定YARN的老大(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>zxy</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
5.slave 配置下载文件所需的主机名称hostname
第四步: 文件配置完成后,进行文件系统的格式化,测试。
1.使用命令。hadoop namenode -format 进行格式化,出现成功。
2.启动: 使用命令。 sbin/start-dfs.sh 过程中需要输入机器密码,输入即可
sbin/start-yarn.sh 过程中需要输入机器密码,输入即可
3.启动完成后,输入命令jps,出现。
4.确认是否安装成功,在前台页面输入http://ip:50070出现如下界面可认为成功。ip为linux本机ip,你也可配置你
本机电脑的hosts文件,通过域名访问。