hadoop+cygwin+eclipse+vista

     终于在vista上配好hadoop了,总结一下 。

 

  一、软件下载

    1、下载hadoop_0.19.2: http://hadoop.apache.org

    2、下载cygwin_1.7: http://www.cygwin.com/ (在线安装时,选择http://www.cygwin.cn站点进行下载,下载速度比较快)

    3、下载eclipse_3.3.2: http://www.eclipse.org

    4、下载java jdk_1.6: http://java.sun.com/javase/downloads/index.jsp

 

    注意jdk和eclipse的版本,过高或过低都会出现问题。(我自己在配置的时候,也曾因版本的不匹配遇到问题)。cygwin的版本我用的是1.7,应该用稍低的版本也没有问题。vista下安装cygwin时,右键选择“以管理员身份运行”,比较好。

 

 

  二、软件安装及配置

      1、教程

       非常详细的配置教程,包括cygwin的安装,eclipse下hadoop使用:http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html。 非常推荐这个网站。

 

      2、遇到的问题:

       ipc.Client: Retrying connect to server: localhost/127.0.0.1:9100 

      我按照1中的教程进行配置,运行教程中的例子,也运行了wordcount的伪分布式版本,一切正常运行。于是我就关机去吃了晚饭,等晚上再一次开机时,就出现了以上的问题。我百思不得其解,尝试关闭防火墙、杀毒软件,修改fs.default.name和mapred.job.tracker的端口号,甚至重新格式化了dffs,都没有用。在google上搜索了很久,那些网页的解决方案都没有用。

      我只好把电脑的环境恢复到清洁状态,包括清理eclipse的工作区,删除hadoop运行程序生成的tmp文件夹和hdfs的文件夹。然后再次按照例程进行配置,一切运行正常。我关闭了教程中要求打开的5个cygwin命令窗口,然后把电脑设置到待机状态。等再一次打开计算机,发现又出现了无法连接服务器的问题。

      经过查看log文件并且分析教程的配置过程,我判断在eclipse下直接运行mapreduce程序时,namenode、jobtracker、secondarynamenode、datanode和tasktracker并没有都启动。于是我在cygwin的窗口中,手动键入bin/start-all.sh,但是eclipse下的程序还是不能正常运行。于是我通过bin/hadoop namenode等命令,手动启动这5个进程。发现start-all.sh其实只启动了namenode和jobtracker。其他三个进程都是我手动启动的。这样,在eclipse的程序可以正常运行了,project explorer下的dfs locations也能看到hdfs上的文件了。

     也就是说,在eclipse下开发mapreduce工程时,通过bin/hadoop namenode, bin/hadoop jobtracker,bin/hadoop secondarynamenode,bin/hadoop datanode和bin/hadoop tasktracker去手动地启动5个进程。

 

     3、配置的建议
      hadoop默认的dfs是放在tmp文件夹下的。网上有建议分开放,这样的话,tmp文件夹删掉时,namenode不需要重新格式化,hdfs的文件信息也保留。

    可以在hadoop-site.xml中加上配置:

    <property>
    <name>hadoop.tmp.dir</name>
    <value>/software/hadoop/hadoop-0.19.2/tmp</value>
    </property>


    <property>
    <name>dfs.name.dir</name>
    <value>/software/hadoop/hadoop-0.19.2/filesystem/name</value>
    </property>
    <property>


    <name>dfs.data.dir</name>
    <value>/software/hadoop/hadoop-0.19.2/filesystem/data</value>
    </property>

 

  四、学习教程

    1、用 Hadoop 进行分布式并行编程:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html

                                                         http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html

                                                         http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/index.html

         这是ibm的教程,是针对hadoop0.16.0的,写得非常详细,适合入门。感慨一下,又一次激起了我的ibm情节。

 

    2、hadoop源码分析: http://caibinbupt.javaeye.com/blog/283480

         写得很详细,有一定的理论深度,对于全面了解hadoop很有帮助。

 

 

    暂且写到这里。下周要好好研究下hadoop下的开发了,毕业论文要交开题报告了,时间不多了。

   

 

     

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值