互联网中寻找相似实体(lookalike)算法优化方案

本文探讨了在互联网场景下寻找相似用户的算法优化,主要介绍了Minhash理论及其降低特征维度的作用,以及局部敏感哈希(LSH)在减少两两用户比较次数上的应用,旨在解决大规模数据下的相似度计算问题。
摘要由CSDN通过智能技术生成

最近在调研给定一个用户,如何高效找到与该用户相似的其他用户,即相似用户查找 (lookalike), 在网上做了些调研,希望和大家分享一下,当前阶段的一些调研结果。

当前普遍通过笛卡尔距离(Jaccard Distance), 余弦距离(Cosine Distance), 编辑距离(Edit Distance)和汉明距离(Hamming Distance)等来量化两个实体之间的相似度,以下简单介绍以上几个概念:

  1. 笛卡尔距离(Jaccard Distance)[1], 描述给定两个集合A和B,笛卡尔距离表示为 1ABAB ,分子和分母表示为集合交集和并集的大小
  2. 余弦距离(Cosine Distance)[2],通常用于描述两个向量 A, B(通指特征向量)在空间(Euclidean Space)中的距离 ni=0aibini=0a2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值