机器学习_hadoop搭建

PS: 2013-08-02 ,千万不要在window下搭,虽然我搭出来了,nodes显示的也是正常的,0755也解决了,但是在运行wordcount还有问题cygwin的symlink解析错误,找了一天也没看人解决过,所有遇到这个问题的基本都放弃了(可以重新编译解决,很麻烦,社区好像也没多少支持的,就算解决了,以后还会有其他问题),直接改虚拟机或者换系统!

首先搭建ssh工作环境

参考:http://blog.csdn.net/blacklaw0/article/details/9663409

网上一大堆都是0.23版的,我用的是1.1.2版

参考:http://wenku.baidu.com/view/69e667277375a417866f8fde.html

注意,终端里最好一直保证root权限,sudo -s -H,查看的端口是50030和50070,不是填的9000之类,还有一个是50060 tasktracer

还有hdfs管理页面,也就是50070需要有一个slave才能看到!

搭了个伪分布,吐血,datanode一直开不了,

参考:http://elektrobank.iteye.com/blog/1264775

要把data权限 755,为了这个问题我花了不少时间,我一般权限全开,很少注意权限多了也会有问题!

给window搭环境的时候更加吐血,cygwin的jps看不了,把c盘conver c:fs/ntfs一下

还有路径上也有很多的问题,我填的是相对 cygwin的home路径,但是实际上确实相对与c:/的路径,注意一下就好了,

中间几个小插曲,pptv的PPAP.exe占用了我的9000端口,杀掉

C:\Documents and Settings>netstat -aon|findstr 8008
TCP 0.0.0.0:8008 0.0.0.0:0 LISTENING 3820
看到了吗,端口被进程号为2596的进程占用,继续执行下面命令:
C:\Documents and Settings>tasklist|findstr "3820"
javaw.exe 3820 Console 0 33,036 K

ubuntu 端口占用 lsof -i:9000   (9001,50060也经常被占用)

然后在jobtracer里有个0775权限的问题,换一个core,

我免积分放在这里:http://download.csdn.net/detail/blacklaw0/5850343

成功后,jps还是只能看到三个,用ps看,有5个java进程就是对的,50070和50030都应该可以看到1个nodes(伪分布)

多看log,注意ERROR行慢慢调就行了!

在实际分布的时候,顺序要注意一下,否则会很麻烦!

1.把master和slaver上data清空

2.在master检查端口,保证这些端口没有被占用

3.把namenode format一下

4.。/start-all.sh

搭建完成后就在安装eclipse插件,因为我是用sudo开的进程,安装好插件后也应该用sudo权限打开eclipse,否则无法查看数据

觉得root麻烦的话,换

这个http://developer.51cto.com/art/201306/397983.htm,我没试过

网上有很多自己编译1.1.2 plug-in的教程,我找了一个已经编译好的放在这里

http://download.csdn.net/detail/blacklaw0/5846705

但是进去后还是会报错,又找了一下午,

http://www.oschina.net/question/1016181_102162

发现应该是eclipse版本太高,有些东西没有考虑到,所以我下了个低版本的3.6.2

下载地址:

http://www.eclipse.org/downloads/packages/eclipse-ide-java-developers/heliossr2

然后按照网上的教程走就行了!


最后把wordcount测试一下,

参考:http://wenku.baidu.com/view/ebe715d649649b6648d7476d.html

插件反应的数据会很慢,我一般都disconnect一下,再连接就可以看到数据了!

我用的一个笔记本(ubuntu),两个台式机(ubuntu & centos)算的,注意一下,有可能Rudece的时候被卡住不动了,

看这里:http://www.cnblogs.com/yuechaotian/archive/2013/02/20/2918964.html

要把hostname改的和slave里的名字一致,关闭防火墙


再附一张端口说明

Hadoop缺省端口列表

50030 mapred.job.tracker.http.address 
描述:JobTracker administrative web GUI JOBTRACKER的HTTP服务器和端口

50070 dfs.http.address 
描述:NameNode administrative web GUI NAMENODE的HTTP服务器和端口

50010 dfs.datanode.address 
描述:DataNode control port (each DataNode listens on this port and registers it with the? NameNode on startup) DATANODE控制端口,主要用于DATANODE初始化时向NAMENODE提出注册和应答请求

50020 dfs.datanode.ipc.address 
描述:DataNode IPC port, used for block transfer DATANODE的RPC服务器地址和端口 
50060 mapred.task.tracker.http.address 
描述:Per TaskTracker web interface TASKTRACKER的HTTP服务器和端口

50075 dfs.datanode.http.address 
描述:Per DataNode web interface DATANODE的HTTP服务器和端口

50090 dfs.secondary.http.address 
描述:Per secondary NameNode web interface 辅助DATANODE的HTTP服务器和端口



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值