相似性度量算法总结

本文详细介绍了多种相似性度量算法,包括向量内积、余弦相似度、欧氏距离、曼哈顿距离、切比雪夫距离以及皮尔逊相关系数。通过公式与几何意义解释了它们的计算方法和应用场景,其中余弦相似度和皮尔逊相关系数在机器学习中用于衡量样本向量的差异和相关性。
摘要由CSDN通过智能技术生成

一、向量内积

(1)介绍:内积也叫点积,内乘,数量积,计算结果是一个数(标量)

(2)公式:对于向量𝑎=(𝑎1,𝑎2,...,𝑎𝑛)与向量𝑏=(𝑏1,𝑏2,...,𝑏𝑛),点积公式为:

𝑎⋅𝑏=𝑎1𝑏1+𝑎2𝑏2+...+𝑎𝑛𝑏𝑛

(3)几何意义: 𝑎⋅𝑏 表示向量a在向量b方向上的投影

设二维空间有两个向量 𝑎 、 𝑏 , |𝑎|,|𝑏| 分别表示𝑎 、 𝑏 的模长,它们的夹角为 𝜃∈(0,𝜋) ,则内积定义为:

𝑎⋅𝑏=|𝑎||𝑏|𝑐𝑜𝑠𝜃

二、余弦相似度

2.1 简介

(1)介绍:余弦相似度又叫夹角余弦

(2)公式:

  • 二维空间中向量 𝐴(𝑥1,𝑦1) 与向量 𝐵(𝑥2,𝑦2) 的夹角余弦公式: 𝑐𝑜𝑠𝜃=𝑥1𝑥2+𝑦1𝑦2𝑥12+𝑦12𝑥22+𝑦22
  • 两个n维样本点 𝐴(𝑥11,𝑥12,...,𝑥1𝑛) 和 𝐵(𝑥21,𝑥22,...,𝑥2𝑛) 的夹角余弦为: 𝑐𝑜𝑠𝜃=𝑎·𝑏|𝑎||𝑏| ,即

𝑐𝑜𝑠(𝜃)=∑𝑘=1𝑛𝑥1𝑘𝑥2𝑘∑𝑘=1𝑛𝑥1𝑘2∑𝑘=1𝑛𝑥2𝑘2

(3)几何意义:夹角余弦可用来衡量两个向量方向的差异;机器学习中,借用这一概念来衡量样本向量之间的差异。夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1

2.2 内积与余弦相似度

(1)公式:

存在两个向量 𝑎=[𝑎1,𝑎2,...,𝑎𝑛] , 𝑏=[𝑏1,𝑏2,...,𝑏𝑛]

  • 内积: 𝑎·𝑏=𝑎1𝑏1+𝑎2𝑏2+...+𝑎𝑛𝑏𝑛=𝑐𝑜𝑠(𝑎,𝑏)∗|𝑎|∗|𝑏|
  • 余弦相似度: 𝑐𝑜𝑠(𝑎,𝑏)=𝑎·𝑏|𝑎||𝑏|

(2)二者关系:

余弦相似度实际是内积的归一化
余弦相似性只考虑向量夹角大小( 𝑐𝑜𝑠(𝑎,𝑏) ),而内积不仅考虑向量夹角大小,也考虑了向量的长度差( |𝑎||𝑏| 
  • 24
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值