Windows下安装Hadoop

公司项目计划用Hadoop,现在需要用Eclipse在Windows下开发,在网上找文章,终于在单机安装成功。
台式机i5-2400 3.1G,2G内存,操作系统Win7,JDK1.6.31,推荐学习这篇文章
1.下载Cygwin,运行Setup.exe,记得安装Sed、Openssh、Openssl,安装目录为d:\cygwin。
2.安装JDK,设置Windows环境变量,添加JAVA_HOME,值为java安装目录,添加CLASSPATH,值为.

;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\dt.jar,在Path变量中添加%JAVA_HOME%\bin
3.设置Windows环境变量,添加CYGWIN变量,值为ntsec tty,Path变量中添加d:\cygwin;d:\cygwin\bin,
4.将cygwin安装的快捷方式设置兼容性,以管理员权限运行。
5.下载hadoop 0.20.2版本(当前最新版为1.0.1,但是运行jobtracer会出现set permission错误,java.io.IOException: Failed to set permissions of path: file:XXX to 07005.运行cygwin
6.更改目录权限
chmod +r /etc/group chmod +r /etc/passwd chmod +rwx /var7.运行ssh-host-config
提示 ifprivilege separation should be used时,输入no
提示if sshd should be installed as a service时,输入yes
提示the value of CYGWIN environment variable时,输入ntsec
提示Do you want to use a different name时,输入no
提示Create new privileged user account 'cyg_server'?时,输入no
提示Do you want to proceed anyway?时,输入yes
8.打开Windows服务管理页面,找到CYGWIN sshd服务,设置属性,选择登录,选择有管理员权限的用户和对应的Windows登录密码
9.回到cygwin,运行cygrunsrv -S sshd

启动sshd服务。
10.在本地生成空密码的公钥和私钥,运行

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa11.配置本地访问不需要密码,运行cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys12.测试本地访问ssh localhost没有使用过ssh连接localhost, 那么会有提示添加localhost到knowhosts中去,然后要求输入密码,记得运行exit,退出ssh。
13.将下载的hadoop拷贝到cygwin当前目录下,运行

tar xvzf hadoop-0.20.2.tar.gz解压将产生hadoop软件目录。
14.删除hadoop-0.20.2.tar.gz,运行rm hadoop-0.20.2.tar.gz15.在hadoop安装目录下,建日志目录mkdir logs chmod 777 logs16.建立jdk link,比如jdk在d:\program files\Java\jdk1.6.31目录下ln -s "cygdrive/d/Program Files/Java/jdk1.6.31" "/usr/local/jdk"

17.打开hadoop安装目录下的conf目录,编辑hadoop-env.sh,添加

export JAVA_HOME=/usr/local/jdk18.修改hadoop目录下conf目录下的core-site.xml<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>hadoop.tmp.dir</name> <value>/hadoop/tmp</value> </property> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>19.修改hadoop目录下conf目录下的hdfs-site.xml<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>dfs.name.dir</name> <value>/hadoop/name</value> </property> <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> 20.修改hadoop目录下conf目录下的mapred-site.xml<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> <property> <name>mapred.local.dir</name> <value>/hadoop/mpredtemp</value> </property> </configuration>21.在hadoop安装目录下,格式化命名空间bin/hadoop namenode -format22.在hadoop安装目录下,运行hadoopbin/start-all.sh23.在hadoop安装目录下,运行测试程序bin/hadoop jar hadoop-0.20.2-examples.jar pi 2 10

24.在hadoop安装目录下,运行运行命令bin/hadoop fs -put /cygdrive/e/Source/java/TestHadoopUploadFile/test/fg /user/sw-its-hhe-hp/sw-its-hhe/timecount/input报错,提示put: File /cygdrive/e/Source/java/TestHadoopUploadFile/test/fg does not exist.由于 Cygwin 的路径并无法正常被 Hadoop 解析,亦即 Hadoop 经过 Windows OS 告知路径为 C:\hadoop4win\opt\hadoop\ 但在 Cygwin 中却为 \opt\hadoop。因此倘若您看到 File XXXX does not exist 的问题,可用 cygpath -w 指令把路径转变成 Windows 绝对路径,就可以解决,运行cygpath -w /cygdrive/e/Source/java/TestHadoopUploadFile/test/fg显示为E:\Source\java\TestHadoopUploadFile\test\fg,运行bin/hadoop fs -put $(cygpath -w /cygdrive/e/Source/java/TestHadoopUploadFile/test/fg) timecount/input拷贝成功。

Windows系统下安装Hadoop需要一些特殊的步骤,因为Hadoop最初是为Linux环境设计的。以下是在Windows安装Hadoop的基本步骤: 1. 安装Cygwin:Cygwin提供了一个类Unix的环境,可以在Windows上运行。它包括了一个Linux风格的命令行界面以及许多Linux的工具和包。你需要在安装过程中选择安装OpenSSH,它将用于Hadoop的通信。 2. 配置SSH:在Cygwin中安装并启动SSH服务,并确保能够通过SSH无密码登录本机。Hadoop需要SSH来管理各个节点之间的通信。 3. 下载并安装JavaHadoop运行需要Java环境。你需要下载并安装Java Development Kit (JDK),并设置好JAVA_HOME环境变量。 4. 下载Hadoop:从Apache Hadoop官网下载适用于WindowsHadoop预编译二进制包(binaries)。 5. 配置Hadoop环境变量:将下载的Hadoop的bin目录添加到系统的PATH环境变量中,以便可以在任何目录下运行Hadoop命令。 6. 配置Hadoop:编辑Hadoop配置文件,包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。这些配置文件位于Hadoop安装目录下的etc/hadoop子目录中。 7. 格式化HDFS:格式化Hadoop的分布式文件系统(HDFS),使用命令 `hadoop namenode -format`。 8. 启动Hadoop:使用 `start-dfs.sh` 和 `start-yarn.sh` 脚本来启动Hadoop的分布式文件系统(HDFS)和YARN资源管理器。 安装过程中可能会遇到一些问题,比如权限设置、环境变量配置不正确等,需要根据具体的错误信息进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值