相似度计算

1. 相似度计算

1.1 概念

从多个维度分析两组数据的相似度,比如大的文本使用word2vec转成向量,类别根据最大的类别数量N拆成n维0或1表示的vector,数值类型归一化之后表示一个维度,然后根据cos、L1、L2等方式计算相似度

1.2 用处

可以用于推荐系统、协同过滤等算法

1.3 细节

注意double值的精度处理

1.4 公式

1.4.1 COSINE

将向量根据坐标值,绘制到向量空间中。如最常见的二维空间。
  求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

1.4.2 L1

标明两个点在标准坐标系上的绝对轴距总和。出租车几何或曼哈顿距离(Manhattan Distance)是由十九世纪的赫尔曼·闵可夫斯基所创词汇,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和

 然后根据 s = 1/(1+d)计算相似度

1.4.3 L2

欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值