推荐系统-召回层-算法-近似最近邻搜索算法（ANN）：LSH【高维稀疏向量相似查找】【算法实现：MinHash】

u013250861

已于 2023-08-16 21:56:21 修改

阅读量619

点赞数 1

分类专栏： # RS/召回层 # LLM/数据处理&Tokenizer 文章标签：算法

于 2023-05-29 23:41:33 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/130938931

版权

LLM/数据处理&Tokenizer 同时被 2 个专栏收录

65 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

RS/召回层

31 篇文章

订阅专栏

本文介绍了局部敏感哈希（LSH）算法，用于解决大规模高维数据集的近似最近邻查找问题。LSH的基本思想是相似的数据在哈希后更可能落入相同的桶。实际应用中，LSH通过MinHash实现，通过计算签名向量并映射到哈希桶中，以控制相似文档进入同一桶的概率。此外，还探讨了相似度计算和在HBase中存储文章相似度的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们在推荐相似文章的时候，其实并不会用到所有文章，也就是TOPK个相似文章会被推荐出去，经过排序之后的结果。如果我们的设备资源、时间也真充足的话，可以进行某频道全量所有的两两相似度计算。但是事实当文章量达到千万级别或者上亿级别，特征也会上亿级别，计算量就会很大。一下有两种类型解决方案

每个频道的文章先进行聚类

可以对每个频道内N个文章聚成M类别，那么类别数越多每个类别的文章数量越少。如下pyspark代码

bkmeans = BisectingKMeans(k=100, minDivisibleClusterSize=50, featuresCol="articleVector", predictionCol='group')
            bkmeans_model = bkmeans.fit(articleVector)
            bkmeans_model.save(
                "hdfs://hadoop-master:9000/headlines/models/articleBisKmeans/channel_%d_%s.bkmeans" % (channel_id, channel))

但是对于每个频道聚成多少类别这个M是超参数，并且聚类算法的时间复杂度并不小，当然可以使用一些优化的聚类算法二分、层次聚类。