在window下hadoop的安装与配置和linux下类似,安装jdk与hadoop配置
1.安装jdk,注意在“系统环境”变量中配置好JAVA_HOME和PATH, (CLASSPATH?)
2.hadoop-2.7.1.tar.gz是window/linux通用的,和Linux类似找个地方解压
解压至G:\hadoop(看第四步,用2.2.0版本,不用2.7.1有问题)
在hadoop的bin和etc目录下可以看到很多.bat文件,就是对应linux的.sh文件
3.配置hadoop的系统环境变量HADOOP_INSTALL和PATH
windows下%HADOOP_INSTALL%代替$HADOOP_INSTALL
cmd下测试hadoop version
hadoop fs -ls / 不好使,因为hadoop安装包中缺少一些exe可执行文件,不必去安装cygwin,直接下载对应的缺失文件就可以了
下载hadoop的增强指令包hadoop-common-2.2.0-bin-master.zip,解压后把缺少的指令添加到hadoop/bin目录下就行
注意;是添加缺失指令,千万不要覆盖,遇到相同文件要跳过。
重启cmd,执行hadoop fs -ls /
4.存在的问题
4.1 创建文件夹
hadoop fs -mkdir -p /wpy/ 注意加 -p代表父目录也帮助创建,不加不行
hadoop fs -ls -r / 显示所有目录
4.2 有些文件删除不了,和当前windows用户有关,可以在计算机--》管理--》用户组中,找administator用户,属性中去掉“账户已禁用”,以
administator用户登录
4.3 hadoop-common-master的版本和Hadoop本身的版本不一致,会在windows下报错,
一种方法是对hadoop-common包升级,还有一种是对hadoop进行降级和common包匹配,hadoop-common包的更新没有跟上hadoop本身,所以
为了彻底解决这些可能的bug,windows下是用hadoop-2.2.0版本(或者其他相同版本)来做
hadoop-2.2.0版本,历史版本下载地址
https://archive.apache.org/dist/hadoop/common/
最好以administaror用户登录再解压,重新配置环境变量,以及和hadoop-common包整合
配置伪分布模式和Linux类似
额外的问题:
*.cmd命令的bug,有的时候执行cmd命令会有一些问题,因为cmd命令中的call语句必须顶格写,前面不能有空格,
所以需要将*.cmd命令中的call语句前面的空格删除.
5.有用的软件Dexpot
window下hadoop会弹出多个cmd窗口,比较多不好看,可以用一个软件来管理,多窗口模式
6.总结
1.安装jdk,配置环境变量
2.(以管理员?)解压hadoop2.2.0和hadoop-comon-master2.2.0版本,
并修改环境变量配置
整合cmd命令,注意不能覆盖,同名文件跳过
3.修改hadoop_install/bin下的所有cmd文件,call语句前的空格删除
这样配置windows下配置hadoop独立模式,伪分布模式就没有问题了
频繁文件系统格式化会产生Bug,每次格式化文件系统会产生一个版本号,版本号不一致会导致数据节点datanode的IO异常,
删除c:/tem/hadoop-administratoe/文件夹,再重新格式化就好了。
1.安装jdk,注意在“系统环境”变量中配置好JAVA_HOME和PATH, (CLASSPATH?)
2.hadoop-2.7.1.tar.gz是window/linux通用的,和Linux类似找个地方解压
解压至G:\hadoop(看第四步,用2.2.0版本,不用2.7.1有问题)
在hadoop的bin和etc目录下可以看到很多.bat文件,就是对应linux的.sh文件
3.配置hadoop的系统环境变量HADOOP_INSTALL和PATH
windows下%HADOOP_INSTALL%代替$HADOOP_INSTALL
cmd下测试hadoop version
hadoop fs -ls / 不好使,因为hadoop安装包中缺少一些exe可执行文件,不必去安装cygwin,直接下载对应的缺失文件就可以了
下载hadoop的增强指令包hadoop-common-2.2.0-bin-master.zip,解压后把缺少的指令添加到hadoop/bin目录下就行
注意;是添加缺失指令,千万不要覆盖,遇到相同文件要跳过。
重启cmd,执行hadoop fs -ls /
4.存在的问题
4.1 创建文件夹
hadoop fs -mkdir -p /wpy/ 注意加 -p代表父目录也帮助创建,不加不行
hadoop fs -ls -r / 显示所有目录
4.2 有些文件删除不了,和当前windows用户有关,可以在计算机--》管理--》用户组中,找administator用户,属性中去掉“账户已禁用”,以
administator用户登录
4.3 hadoop-common-master的版本和Hadoop本身的版本不一致,会在windows下报错,
一种方法是对hadoop-common包升级,还有一种是对hadoop进行降级和common包匹配,hadoop-common包的更新没有跟上hadoop本身,所以
为了彻底解决这些可能的bug,windows下是用hadoop-2.2.0版本(或者其他相同版本)来做
hadoop-2.2.0版本,历史版本下载地址
https://archive.apache.org/dist/hadoop/common/
最好以administaror用户登录再解压,重新配置环境变量,以及和hadoop-common包整合
配置伪分布模式和Linux类似
额外的问题:
*.cmd命令的bug,有的时候执行cmd命令会有一些问题,因为cmd命令中的call语句必须顶格写,前面不能有空格,
所以需要将*.cmd命令中的call语句前面的空格删除.
5.有用的软件Dexpot
window下hadoop会弹出多个cmd窗口,比较多不好看,可以用一个软件来管理,多窗口模式
6.总结
1.安装jdk,配置环境变量
2.(以管理员?)解压hadoop2.2.0和hadoop-comon-master2.2.0版本,
并修改环境变量配置
整合cmd命令,注意不能覆盖,同名文件跳过
3.修改hadoop_install/bin下的所有cmd文件,call语句前的空格删除
这样配置windows下配置hadoop独立模式,伪分布模式就没有问题了
频繁文件系统格式化会产生Bug,每次格式化文件系统会产生一个版本号,版本号不一致会导致数据节点datanode的IO异常,
删除c:/tem/hadoop-administratoe/文件夹,再重新格式化就好了。