论文笔记 ——《Kernelized Locality-Sensitive Hashing for Scalable Image Search》

本文介绍了《Kernelized Locality-Sensitive Hashing for Scalable Image Search》这篇论文,探讨如何利用核函数进行快速近似检索。论文提出了一种在不知道或计算成本高的嵌入空间中,通过核函数构建随机超平面哈希的方法,适用于大规模视觉搜索问题。主要思想是保持相似数据点在哈希空间中相邻的概率,同时减少不同数据点映射到同一哈希桶的概率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

  1. 论文的链接地址没有贴了;
  2. 最近在做视觉搜索相关的哈希技术,顺便写下自己的笔记,方便以后复习;
  3. 文章是随笔的,所以可能会有不全的地方,所以有读者看到不懂的地方可以去看论文原文;
  4. 博文的目录是按照论文的目录来记录的;

Introduction

给定核函数κ(xi,xj) = φ(xi)^Tφ(xj)和数据集[含有 n 个数据】。提出问题怎么才能快速进行近似检索?

our hash functions involve computing random projections; however, unlike standard LSH, these random projections are constructed using only the kernel function and a sparse set of examples from the database itself. Our main technical contribution is to formulate the random projections necessary for LSH in kernel space. Our construction relies on an appropriate use of the central limit theorem [21], which allows us to approximate a random vector using items from our database.
 


Related Work

review related work in fast search algorithms and their application for visual search problems
因为比较水,就没有翻译了!

<
以下是使用Python实现Locality-sensitive hashing(LSH)算法的示例代码: ```python import numpy as np import hashlib # 生成一些随机数据 data = np.random.rand(1000, 10) # 设置LSH参数 num_tables = 10 num_hashes = 5 hash_size = 10 # 初始化LSH表 tables = [{} for _ in range(num_tables)] hash_funcs = [hashlib.sha1, hashlib.md5, hashlib.sha256, hashlib.blake2s, hashlib.sha3_256] # 建立LSH表 for i in range(num_tables): for j in range(1000): hash_values = [] for k in range(num_hashes): hash_value = hash_funcs[k](data[j].tostring()).hexdigest()[:hash_size] hash_values.append(hash_value) hash_key = ''.join(hash_values) if hash_key not in tables[i]: tables[i][hash_key] = [] tables[i][hash_key].append(j) # 查询近似相似的数据点 query = np.random.rand(10) query_hash_values = [] for k in range(num_hashes): hash_value = hash_funcs[k](query.tostring()).hexdigest()[:hash_size] query_hash_values.append(hash_value) query_hash_key = ''.join(query_hash_values) similar_points = set() for i in range(num_tables): if query_hash_key in tables[i]: similar_points.update(tables[i][query_hash_key]) print(similar_points) ``` 这段代码生成一个大小为1000的随机数据集,并使用LSH算法建立10个LSH表。然后,给定一个查询点,代码计算查询点的哈希值,并在每个LSH表中查找具有相同哈希值的数据点。最后,代码返回所有这些数据点的索引,这些数据点与查询点相似。在实际应用中,可以使用更复杂的哈希函数和更多的LSH表来提高准确性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值