由于研究的需要,最近对HAMA做了简单的测试。和大家分享一下。
1.1什么是HAMA:
HAMA是apache的一个开源项目,作云计算的人都知道mapreduce,但mapreduce编程模式处理的是特定模式的海量数据,但对于需要反复迭代以及图形算法实现则显得不那么灵光。说道HAMA就不得不提BSP模式,这里我就不多说BSP模式,大家自己wiki吧。BSP模式可以实现并行化,HAMA和mapreduce一样,只是HAMA将BSP这种模式并行化了,mapreduce将那种统计计算并行化了。
1.2HAMA安装:
本博主要介绍HAMA的安装集测试就不多少原理了。
HAMA是架设在hadoop的HDFS之上,文件都存储在HDFS上。所以需要首先安装hadoop集群。Hadoop集群的安装和配置我也不多少了,网上很多安装说明。
我用3台机器架了个集群配置为:
dh1:namenode jobtracker
dh2:datanode tasktracker
dh3:datanode tasktracker
因为集群上有hbase,所以ZooKeeper也不用安装了。ZooKeeper包括dh1,dh2,dh3.