这里有一些不得不说的东西,虽然简单,只是“知道与不知道”的问题,但如果不是别人亲自点拨,还需很多弯路。
1. hadoop工具
把它想成一个工具,没有多复杂的东西,会用即可,去年竟然还把他的源代码打印出来看。。。就当工具好了,没必要像小时候那样把什么都卸下来看个究竟
2. hadoop分布式编程
hadoop就是个分布式的编程框架,只要你让它在多个节点之间跑就可以了,真正核心的就是用来配置这个基础框架的各个配置及文件,例如namenode访问路径等
3.头疼的JAVA_HOME设置问题
如果知道就很简单了,我是在Ubuntu上面跑的,这里推荐一个很简单的方法,就是在{hadoop_home}/conf/hadoop-env.sh里面设置一个统一的JAVA_HOME变量,这样你把配置文件scp到远程主机上,那么所有的配置就会同时生效,避免繁琐的一一配置(注,前提是所有的java都安装在相同的地方)
由于打算用这个工具做博士的实验,因此以后会经常写一些细枝末节,以备以后使用。