准备
(1) Hadoop3.1.0版本的安装包:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.0/hadoop-3.1.0.tar.gz (耐心下载,很慢的,1个小时起步)
(2) Windows环境安装所需的bin:https://github.com/s911415/apache-hadoop-3.1.0-winutils
(hadoop自带bin是linux系统运行,要在window系统运行,需要这个文件bin替换hadoop包的bin)
1.安装JDK (省略)
2.winutils的bin文件夹替换Hadoop3.1.0的bin文件夹 (支持hadoop在win系统运行)
3.像安装JDK一样配置系统环境变量,因为scala语言运行在jvm,所以还需要安装jdk
4.修改Hadoop配置文件
1.core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:900</value>
</property>
</configuration>
2. mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
3. yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
4. 创建存数据的文件夹,路径与5的配置相关联
5. hdfs-site.xml (如果反斜杠\不行,可以换成正斜杠/); 其中value是文件夹datanode和namenode的路径
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.datanode.name.dir</name>
<value>D:/hadoop-3.1.0/data2020/datanode</value>
</property>
<property>
<name>dfs.namenode.data.dir</name>
<value>D:/hadoop-3.1.0/data2020/namenode</value>
</property>
</configuration>
验证环境是否正常:
#进入到 D:\hadoop-3.1.0\bin 路径,如果没报错的话,证明配置文件没出问题!
hdfs namenode –format
#跳出两个窗口,不要关掉它们!
start-dfs.cmd
#进入到D:\hadoop-3.1.0\Sbin路径再输入命令,再出现两个窗口,也不要关!
start-yarn.cmd
接着在浏览器中访问 http://localhost:9870/
补充说明: 我这里环境变量配置sbin,于是在 D:\hadoop-3.1.0\bin目录 执行命令,打不开网站,原因不详!!