- 博客(3)
- 收藏
- 关注
转载 minHash(最小哈希)和LSH(局部敏感哈希)
原文地址:http://www.07net01.com/2015/08/907327.html 在数据挖掘中,有一个比较基本的问题,就是比较两个集合的相似度。关于这个问题,最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素,进而统计这两个集合中相同元素的个数。但是,当这两个集合里的元素数量非常庞大时,同时又有很多个集合需要判断两两之间的相似度时,这种方法就呵呵了,
2016-12-20 19:23:42 1690 4
翻译 Similarity Search in High Dimension via Hashing LSH 原始算法详解
摘要 最近邻查询或近邻查询问题出现在大量的数据库应用中,通常在相似性搜索的上下文中。最近,对建立用于对高维数据执行相似性搜索的搜索索引结构,例如图像数据库,文档集合,时间序列数据库和基因组数据库。不幸的是,用于解决这个问题的所有已知技术都面临维度灾难。“也就是说,数据结构与数据维数差别很大;事实上,如果维度数超过10到20,在k-d树和相关结构中的搜索涉及检查大部分数
2016-12-20 13:30:22 2335
转载 Precision & Recall
1.概念召回率:Recall,又称“查全率”——还是查全率好记,也更能体现其实质意义。准确率:Precision,又称“精度”、“正确率”。检索结果 相关不相关检索到内容AB未检索到内容CD注:
2016-12-19 20:06:40 399
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人