hadoop是运行在linux系统下的一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。今天我们要在windows环境下搭建hadoop的环境,Windows下运行Hadoop,通常有两种方式:一种是用VM方式安装一个Linux操作系统,这样基本可以实现全Linux环境的Hadoop运行;另一种是通过Cygwin模拟Linux环境。后者的好处是使用比较方便,安装过程也简单。今天我们使用第三种方式不需要虚拟机和cygwin依赖,相对简便很多。
一、环境搭建准备
1.windows系统(win7及以上)
2.hadoop程序包(本文使用最新稳定版hadoop-2.8.2),下载地址:
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.2
3.下载hadoop在windows上需要的winutils支持和hadoop.dll依赖库,下载地址:
https://github.com/steveloughran/winutils (注:选择自己对应的版本)
二、开始搭建步骤
1.安装hadoop
将刚才下载的hadoop-2.8.2程序包解压到windows的磁盘目录下(注:无空格目录,最好不要汉语)
然后配置hadoop的环境变量:新建HADOOP_HOME,定位到hadoop解压目录,如:
D:\tool\bigdata\hadoop (注:我的目录,大家换成自己的目录)path环境变量中增加:
%HADOOP_HOME%\bin;
2.下载安装JDK环境
jdk安装配置此处省略,我的其他地方已经提及,或者大家自己百度搭建
3.配置Hadoop依赖库
将winutils.exe放到hadoop的bin目录下,将hadoop.dll放到C盘/windows/System目录下
注:如果出现依赖性异常问题可以将hadoop.dll放到C盘/windows/System32解决
4.测试hadoop环境
在hadoop的bin目录下按住shift右击选择在此处打开命令行,输入hadoop version命令查看信息:
5.配置hadoop
修改hadoop核心配置文件hadoop/etc/hadoop/core-site.xml
修改hdfs配置文件hadoop/etc/hadoop/hdfs-site.xml
修改hdfs配置文件hadoop/etc/hadoop/mapred-site.xml
修改hdfs配置文件hadoop/etc/hadoop/yarn-site.xml
6.启动hadoop环境
启动前先执行hdfs namenode -format格式化系统文件命令(注:hadoop/bin下执行)
此时已进行完初始化系统第一步,接下来cd到hadoop/sbin目录下,按住shift右击选择在此处打开命
令行执行 start-dfs 命令启动hadoop
查看控制台日志发现启动报出异常,没有启动成功:查看控制台错误时缺少库文件,好像忘记把hadoop.dll文件加到hadoop的bin目录下了,于是拷贝粘贴再次执行start-dfs命令
此时成功启动,在浏览器地址栏输入http://127.0.0.1:50070/
此时说明hadoop在windows平台下已经成功搭建完成。
三、hadoop的简单使用
1.简单操作hdfs
由于已经在环境变量中配置了hadoop/bin目录此时在命令行中直接就可使欢乐的使用hdfs的命令了
<1>.显示文件命令:hdfs dfs -ls
<2>.创建目录(文件夹)命令:hdfs dfs -mkdir <目录>
<3>.文件的输入命令:hdfs dfs -put <源文件目录> <hdfs文件目录>
<4>.文件内容显示命令:hdfs dfs -cat <文件目录>
<5>.删除文件命令:hdfs dfs -<文件目录>
2.可视化hdfs资源
使用命令行操作可能会觉得不清晰,于是hadoop为我们提供了可视化操作:我们进入hadoop/sbin目录下输入start-yarn命令回车,然后访问http://127.0.0.1:8088就可以可视化的查看资源以及进行节点管理的操作。
其他web管理界面地址:
NameNode | http://127.0.0.1:port/ | 默认 HTTP 端口为 50070. |
ResourceManager | http://127.0.0.1:port/ | 默认 HTTP端口为 8088 |
MapReduce JobHistory Server | http://127.0.0.1:port/ | 默认 HTTP 端口为 19888 |