hadoop+cygwin+eclipse+vista

最新推荐文章于 2024-08-29 08:36:17 发布

kite1988

最新推荐文章于 2024-08-29 08:36:17 发布

阅读量3.7k

点赞数

分类专栏： Hadoop 文章标签： eclipse hadoop mapreduce ibm 杀毒软件 jdk

本文链接：https://blog.csdn.net/kite1988/article/details/4992472

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

终于在vista上配好hadoop了，总结一下。

一、软件下载

1、下载hadoop_0.19.2: http://hadoop.apache.org

2、下载cygwin_1.7: http://www.cygwin.com/ (在线安装时，选择http://www.cygwin.cn站点进行下载，下载速度比较快）

3、下载eclipse_3.3.2: http://www.eclipse.org

4、下载java jdk_1.6: http://java.sun.com/javase/downloads/index.jsp

注意jdk和eclipse的版本，过高或过低都会出现问题。（我自己在配置的时候，也曾因版本的不匹配遇到问题）。cygwin的版本我用的是1.7，应该用稍低的版本也没有问题。vista下安装cygwin时，右键选择“以管理员身份运行”，比较好。

二、软件安装及配置

1、教程

非常详细的配置教程，包括cygwin的安装，eclipse下hadoop使用：http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html。非常推荐这个网站。

2、遇到的问题：

ipc.Client: Retrying connect to server: localhost/127.0.0.1:9100

我按照1中的教程进行配置，运行教程中的例子，也运行了wordcount的伪分布式版本，一切正常运行。于是我就关机去吃了晚饭，等晚上再一次开机时，就出现了以上的问题。我百思不得其解，尝试关闭防火墙、杀毒软件，修改fs.default.name和mapred.job.tracker的端口号，甚至重新格式化了dffs，都没有用。在google上搜索了很久，那些网页的解决方案都没有用。

我只好把电脑的环境恢复到清洁状态，包括清理eclipse的工作区，删除hadoop运行程序生成的tmp文件夹和hdfs的文件夹。然后再次按照例程进行配置，一切运行正常。我关闭了教程中要求打开的5个cygwin命令窗口，然后把电脑设置到待机状态。等再一次打开计算机，发现又出现了无法连接服务器的问题。

经过查看log文件并且分析教程的配置过程，我判断在eclipse下直接运行mapreduce程序时，namenode、jobtracker、secondarynamenode、datanode和tasktracker并没有都启动。于是我在cygwin的窗口中，手动键入bin/start-all.sh，但是eclipse下的程序还是不能正常运行。于是我通过bin/hadoop namenode等命令，手动启动这5个进程。发现start-all.sh其实只启动了namenode和jobtracker。其他三个进程都是我手动启动的。这样，在eclipse的程序可以正常运行了，project explorer下的dfs locations也能看到hdfs上的文件了。

也就是说，在eclipse下开发mapreduce工程时，通过bin/hadoop namenode， bin/hadoop jobtracker，bin/hadoop secondarynamenode，bin/hadoop datanode和bin/hadoop tasktracker去手动地启动5个进程。

3、配置的建议
hadoop默认的dfs是放在tmp文件夹下的。网上有建议分开放，这样的话，tmp文件夹删掉时，namenode不需要重新格式化，hdfs的文件信息也保留。

可以在hadoop-site.xml中加上配置：

    <property>
    <name>hadoop.tmp.dir</name>
    <value>/software/hadoop/hadoop-0.19.2/tmp</value>
    </property>

    <property>
    <name>dfs.name.dir</name>
    <value>/software/hadoop/hadoop-0.19.2/filesystem/name</value>
    </property>
    <property>

    <name>dfs.data.dir</name>
    <value>/software/hadoop/hadoop-0.19.2/filesystem/data</value>
    </property>

四、学习教程

1、用 Hadoop 进行分布式并行编程：http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html，

http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html

http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/index.html

这是ibm的教程，是针对hadoop0.16.0的，写得非常详细，适合入门。感慨一下，又一次激起了我的ibm情节。

2、hadoop源码分析： http://caibinbupt.javaeye.com/blog/283480

写得很详细，有一定的理论深度，对于全面了解hadoop很有帮助。

暂且写到这里。下周要好好研究下hadoop下的开发了，毕业论文要交开题报告了，时间不多了。

kite1988

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop+cygwin+eclipse+vista

终于在vista上配好hadoop了，总结一下。一、软件下载 1、下载hadoop_0.19.2: http://hadoop.apache.org 2、下载cygwin_1.7: http://www.cygwin.com/ (在线安装时，选择http://www.cygwin.cn站点进行下载，下载速度比较快） 3、下载eclipse_3
复制链接

扫一扫

专栏目录