老板一直希望我们能用图分割的方法来做PageRank on Hadoop。但是涉及困难很多,一直无法下手。
今天看着程序慢慢的运行,感慨收敛速度慢的要死,终于有些新想法。
其实面对一个包含多种复杂无法下手的问题,先想办法得到实现一步的效果,再以此为基础做下一步的工作可能会更好
也算是给基于图的PageRank on Hadoop开一个头。
可以先将图分割,在这里可以分的多一点,例如50张。暂不考虑单机处理和单图收敛问题。
如果某一张图判断已收敛,就将其遗弃。
以减轻I/O。
单张图收敛次数应该小于全局。使收敛更快。
求图切割算法ing.