minHash(最小哈希)和LSH(局部敏感哈希)

 

         在数据挖掘中,有一个比较基本的问题,就是比较两个集合的相似度。关于这个问题,最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素,进而统计这两个集合中相同元素的个数。但是,当这两个集合里的元素数量非常庞大时,同时又有很多个集合需要判断两两之间的相似度时,这种方法就呵呵了,对内存和时间的消耗都非常大。因此,为了解决这个问题,数据挖掘中有另一个方法。

Jaccard相似度

         在介绍具体算法之前,我们首先来了解一个概念:Jaccard相似度。

         Jaccard相似度是用来描述两个集合间的相似度的,其计算方法如下(假设有两个集合A,B):,也就是A与B交集的元素个数除以A与B并集的元素个数;为了书写方便,下面的讨论中我们将集合A和B的Jaccard相似度记为SIM(A,B);

 

 

例如:上图中有两个集合A,B;A中有4个元素,B中有5个元素;A,B的交集元素个数为2,并集元素个数为7,所以SIM(A,B) = 2 / 7;

 

k-Shingle

       假如我们把一整篇文章看成一个长的字符串,那么k-shingle就是这篇文档中长度为k的任意字符子串。所以,一篇文章就是很多个不同的k-shingle的集合。

        例如:现在我们有一篇很短的文章,文章内容为abcdabd,令k=2,那么这篇文章中所有的2-shingle组成的集合为{ab,bc,cd,da,bd},需要注意的是,ab在文章中出现了两次,但是在集合中只出现一次,这是因为集合中不能有相同的元素。

         尽管用k-shingle的方式来表示每篇文章,然后再通过判断每篇文章中shingle集合的相同元素的数量,就可以得出文章的相似度;但是,一篇文章得到的shingle集合的元素个数是很多的。假定k=4,那么每个shingle中就会有4个字符,存在内存中就至少需要4个字节;那么要以这种方式存下一篇文章的所有shingle,需要的内存空间大概是原文档大小的4倍(假设

阅读终点,创作起航,您可以撰写心得或摘录文章要点写篇博文。去创作
  • 51
    点赞
  • 115
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 13
    评论
### 回答1: 我可以给您提供一个Python示例代码以实现局部敏感算法:def lsh(s, b, r): # s 为输入字符串,b 为哈分块大小,r 为哈函数的数量 n = len(s) # 初始化一个列表来存储哈值 hashes = [] # 遍历所有 r 个哈函数 for i in range(r): h = 0 # 遍历字符串中的每个字符 for j in range(0, n, b): # 如果当前字符不足 b 个,仅使用实际字符数目 m = min(b, n-j) # 计算当前字符块的哈值 h = h + hash(s[j:j+m]) # 将 h 添加到哈列表中 hashes.append(h) # 返回哈列表 return hashes ### 回答2: 局部敏感算法(Locality Sensitive Hashing,简称LSH)是一种常用于解决数据检索问题的算法。它的目标是在高维数据中快速找到与给定查询相似的数据项。 要用Python编写局部敏感算法,可以按照以下步骤进行: 1. 首先,选择一个合适的哈函数。在局部敏感算法中,常用的哈函数包括随机投影、MinHash和SimHash等。 2. 准备需要检索的数据集。假设我们有一个包含大量文档的文本集合。 3. 对每个文档,使用选择的哈函数将文档哈为一个固定长度的二进制编码。可以使用Python的哈函数库来实现如下: ```python import hashlib def hash_document(document, hash_size): hash_value = hashlib.md5(document.encode('utf-8')).hexdigest() binary_hash = bin(int(hash_value, base=16))[2:].zfill(hash_size) return binary_hash ``` 其中,`document`表示待哈的文档,`hash_size`表示哈编码的长度。这里使用MD5哈函数将文档编码为哈值,并将其转换为二进制编码。 4. 组织哈索引。将每个文档的哈编码存储到一个哈索引中,可以使用Python的字典数据结构来实现。键是哈编码的值,值是与该哈编码相对应的文档标识符列表。 ```python def build_hash_index(documents, hash_size): hash_index = {} for doc_id, doc_content in enumerate(documents): binary_hash = hash_document(doc_content, hash_size) if binary_hash in hash_index: hash_index[binary_hash].append(doc_id) else: hash_index[binary_hash] = [doc_id] return hash_index ``` 其中,`documents`是由文档组成的列表。 5. 执行查询。对于给定的查询文档,使用相同的哈函数将其编码为哈值,并在哈索引中查找相似的哈编码。 ```python def query_similar_documents(query, hash_index, hash_size, threshold): query_hash = hash_document(query, hash_size) similar_documents = set() for index_hash, doc_ids in hash_index.items(): if hamming_distance(query_hash, index_hash) <= threshold: similar_documents.update(doc_ids) return similar_documents ``` 其中,`query`表示查询文档,`threshold`是哈距离的阈值。 通过以上步骤,我们可以用Python编写一个简单的局部敏感算法。当然,在实际应用中,还可以根据具体需求对算法进行优化和改进。 ### 回答3: 局部敏感(Locality Sensitive Hashing,LSH)是一种常用于数据相似性搜索的算法。下面是使用Python编写局部敏感算法的例子: 首先,我们需要安装第三方库`numpy`和`sklearn`,使用以下命令进行安装: ``` pip install numpy pip install sklearn ``` 接下来,我们可以开始编写局部敏感算法的代码。下面是一个简单的示例: ```python import numpy as np from sklearn.neighbors import LSHForest # 创建一个随机数据集 data = np.random.random((100, 10)) # 初始化局部敏感算法对象 lshf = LSHForest(n_estimators=10, random_state=42) # 训练数据集 lshf.fit(data) # 通过查询相似项 query_data = np.random.random((1, 10)) nearest_neighbors = lshf.kneighbors(query_data, n_neighbors=5, return_distance=False) # 打印最近的邻居 print(nearest_neighbors) ``` 在上面的代码中,我们首先创建了一个随机的数据集`data`,然后初始化了一个局部敏感算法对象`lshf`。我们使用`fit`方法对数据集进行训练,然后使用`kneighbors`方法查询与给定数据`query_data`相似的最近邻居,最后打印出最近邻居的索引。 通过这个例子,我们可以看到,使用`sklearn`库的`LSHForest`类可以很方便地实现局部敏感算法。这个算法在大规模数据相似性搜索中有广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sysu安仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值