用hadoop实现pagerank总结

最新推荐文章于 2024-06-25 18:52:12 发布

coslion

最新推荐文章于 2024-06-25 18:52:12 发布

阅读量4.4k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/coslion/article/details/24304071

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

由于课程大作业的需要，前一段时间简单学习了一下hadoop的使用，配置了开发环境，并跑了一个pagerank的程序。虽然网上相关的资料已经很多了，但是从搭建集群到写好pagerank程序成功运行还是花了不少时间的。所以在这里整理一下自己遇到的问题和用到的比较好的资料。

1、安装hadoop
http://os.51cto.com/art/201211/364167.htm
hadoop单机版配置。搭建单机环境主要是为了写程序调试方便。集群搭建的链接忘记在哪了。在配置环境的时候感觉如果时间比价紧的话还是一步一步的完全按照教程来比较好，要不有时候遇到一个问题要折腾好久。

http://blog.csdn.net/bychjzh/article/details/7830508
namenode无法启动解决办法。（如果还无法解决的话，要删除\tmp下所有文件，还有hadoop datanode和namenode的临时文件，然后重新格式化namenode）ps：其实是自己逗比了，按照这个博客说的就可以解决问题，但是我新建的文件夹是用另一个账户创建的，hadoop账户无法访问，所以就出现了按这个方法还无法解决的问题。

2、安装eclipse插件

java环境和eclipse插件建议手动配置，不要用apt-get。相关的文章很多，就不贴链接了。
http://6728496.blog.51cto.com/6718496/1303425
hadoop-eclipse插件需要自己编译

http://phz50.iteye.com/blog/932373
安装eclipse插件，以及用eclipse写hadoop程序

http://hi.baidu.com/captainstudio/item/5915184779949ad3c0a59224
安装后可能不能正常运行，解决方法

3、写程序
http://hadoop.apache.org/docs/r0.19.1/cn/mapred_tutorial.html
hadoop mapreduce 入门。我感觉只用看一下wordcount这个程序是怎么写的，弄清楚mapreduce程序的结构就好。

http://blog.csdn.net/leojames007/article/details/6824901
这个链接用一个例子讲解了mapreduce怎么写，写的非常清楚，感觉开完就基本懂了mapreduce的思想了。

http://wlh0706-163-com.iteye.com/blog/1397694

这个链接对pagerank在hadoop上的实现讲的比较清楚，基本思想是对的，可惜代码给的有问题，让我debug了半天T T。不过还是推荐先看一下这篇博客，如果能看出代码错在哪，就说明对pagerank的mapreduce实现掌握差不多了。

http://blog.csdn.net/square_l/article/details/11830017

这个链接是个可用的pagerank mapreduce程序，但是讲解没有上面的详细。看懂上面的程序，这个也就能看懂了，思想是一样的。