原始数据格式
url:uid,times
目标输出
url1:url2,url3
由原始格式生成以下两种格式
url:uid1,uid2,uid3,...
uid:url1,url2,url3,...
然后,把第二条填入第一条,就是结果
--- --- ---
问题是。。。
hadoop一次出不了多重结果。。。
囧
解决方法,把每条uid:url1,url2,url3,... 都切分成
url1:url2,url3,...
url2:url1,url3,...
url3:url1,url2,...
...
然后,拼接后面的部分即可,输出成<Text , MapWritable >,可以去重、计数
(前面两张帖子就是干这些用的,拼接、切分)
done.