- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 Near-duplicate Detection(文章相似度计算)
近一个月主要研究文本内容的相似度 考虑的主要方法为: jaccard distance cosine similarity simHash minHash some tricks:simple but efficient simhash: 官方的simhash并不大支持中文: 中文版并不支持索引 没有索引的simhash不算simhash哈 因此直接利用官方的,
2015-08-15 22:33:17 937
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人