论文《Neighbor-Sensitive Hashing》读后感（一）

最新推荐文章于 2022-07-14 17:59:15 发布

fanyang_1996

最新推荐文章于 2022-07-14 17:59:15 发布

阅读量552

点赞数 1

分类专栏：算法设计与分析文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fanyang_1996/article/details/53780168

版权

KNN问题

近似的KNN（k近邻）使用二进制散列函数技术，是克服执行精确的KNN查询的高昂成本的最常用的方法之一。本文引进了邻居敏感哈希，通过使用哈希码中更多的二进制位来区分邻近数据项，在k的值较小的情况下，大大提高了算法的准确性和时间效率。

主要思想

作者认为，“在汉明空间内增加类似的产品之间的距离”，这种看似违反直觉的想法是远远更有效地解决k近邻问题。因为在大多数的情况下，KNN问题中的参数k都不会有太大的取值，因此NSH算法适用于k值较小的情况，即可适用于绝大多数情况。

本算法提出了一个特殊的转换函数——NST，它满足以下的三个性质：

1．连续性；

2．单调递增；

3．它使得邻近数据项之间的距离变大。

本算法通过这样的转换函数，得到一系列特殊的哈希码。在这些哈希码中，更多的二进制位被用来区分邻近的数据项，而选择性的忽视了远端数据项的差异。

通过这样的方法，可以显著优化当K值较小时的算法准确度。

本算法中的哈希码和其他算法的区别，具体如下图所示:

前人提出的方法的目标是要分配哈希码，使得每对数据项之间的汉明距离尽可能接近其原始距离的线性函数。本文的方法改变了这种形式，就像上图（C）中的实线所示;当一对数据项之间的原始距离小，我们设定一个较大的斜率，并让曲线在超过某一点时趋于平稳。这意味着在NSH技术分离别的k近邻项目的概率较高。

基本算法的描述

NSH的首要目标是生成合适的NST转换函数。

首先，如果我们考虑一个数据项V作为一个m维列向量d

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文《Neighbor-Sensitive Hashing》读后感（一）

KNN问题近似的KNN（k近邻）使用二进制散列函数技术，是克服执行精确的KNN查询的高昂成本的最常用的方法之一。本文引进了邻居敏感哈希，通过使用哈希码中更多的二进制位来区分邻近数据项，在k的值较小的情况下，大大提高了算法的准确性和时间效率。主要思想作者认为，“在汉明空间内增加类似的产品之间的距离”，这种看似违反直觉的想法是远远更有效地解决k近邻问题。因为在大多数的情况下，KNN问题
复制链接

扫一扫

专栏目录

fanyang_1996 CSDN认证博客专家 CSDN认证企业博客

码龄8年

11: 原创

121万+: 周排名

214万+: 总排名

2万+: 访问

: 等级

354: 积分

3: 粉丝

7: 获赞

3: 评论

18: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文《Neighbor-Sensitive Hashing》读后感（四）
Tera_Spring: 嗨，亲，我也看了这篇论文。但是说实话，不是太懂那个NST的构造。NST构造是一个指数函数的形式，变量里的分子表示P和v的距离。这个函数的作用就是把本身很近的点距离扩大化，这点可以理解。但是构造hash函数那里，不太明白Wi和ci是怎样的取值，如果是用高斯分布来产生，那高斯分布本身是基于概率公式的，公式里的取值呢？而且最后得到的hash值，是相互匹配吗？论文里没有看到这点。可能看的不太明白的原因，问题好多。希望和您一块讨论讨论。
“MVC编程与云平台部署” 实验心得
weixin_39533965: 学长，实验的源码还有吗，求个参考，感谢感谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。