- 博客(2)
- 资源 (5)
- 收藏
- 关注
原创 hadoop超时解决办法
进行矩阵计算的时候,由于持续时间长,往往会出现超时的错误,错误内容如下: Task attempt_201005281116_119912_r_000823_0 failed to report status for 606 seconds. Killing! 10/06/10 10:49:45 INFO mapred.JobClient: Task Id : attempt_201005281116_119912_r_000015_1, Status : FAILED 解决办法是在代码中定时rep
2010-06-10 11:33:00 4727 2
原创 利用simhash来进行文本去重复
原文http://d3s.mff.cuni.cz/~holub/sw/shash/#a1传统的hash函数能够将一样的文本生成一样的hash函数,但是,通过simhash方法,能够差不多相同的文档得到的hash函数也比较相近。Charikar's hash通过Char
2010-06-01 15:21:00 12185 1
programming.collective.intelligence.aug.2007.pd
2009-08-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人