- 博客(1)
- 资源 (5)
- 收藏
- 关注
原创 simhash进行文本查重
有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串? 大规模网页的近似查重主要翻译自WWW07的Detecting Near-Duplicates for Web Crawling WWW上存在大量内容近似相同的网页,对搜索引擎而言,去除近似相同的网页可以提高检索效率、降低存储开销。当爬虫在抓取网页时必须
2010-11-14 16:47:00 17970 20
几个推荐算法的java实现
java实现的几个推荐算法:slopeone SVD,RSVD,ItemNeighborSVD
内有readme,相关内容在blog.csdn.net/lgnlgn
2012-01-05
基于随机游走的社团发现算法Hadoop版
基于随机游走的社团发现算法Hadoop版 以及一个graph生成程序。整个是个eclipse项目,没有把lib放上来。内容在
http://blog.csdn.net/lgnlgn/article/details/6561876 的下一篇博客
2011-07-07
二进制串模糊搜索的Java实现0.11
http://blog.csdn.net/lgnlgn/archive/2010/11/14/6008498.aspx 中提到的论文中的算法部分,整个eclipse工程打包了。
2011-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人