n维空间的欧氏距离公式_特征向量的距离度量

本文介绍了在机器学习中衡量向量相似度的几种方法,包括欧氏距离、余弦相似度、标准化欧氏距离和汉明距离。欧氏距离衡量绝对直线距离,适合数值差异分析;余弦相似度关注方向差异,适用于内容评分区分;标准化欧氏距离解决了不同尺度问题;汉明距离用于二进制数据差异计算。字符串相似度可通过编辑距离(Levenshtein距离)评估。
摘要由CSDN通过智能技术生成

目录:

  1. 欧氏距离
  2. 余弦相似度
  3. 标准化欧氏距离
  4. 汉明距离
  5. 字符串相似度

在机器学习中通常用向量来表示每个样本,而计算向量的相似度可以衡量样本向量之间的差异。

计算向量的相似度主要有欧氏距离、余弦距离和汉明距离三种方法。

1、欧氏距离

在二维、三维或多维空间中的欧氏距离就是两点之间的直线距离,在n维空间中是两个点之间的实际距离:

利用欧式距离计算向量的相似度,欧式距离越小相似度越大。

用python代码表示如下:

euclidean_dist = np.sqrt(np.square(vector_1 - vector_2).sum())

2、余弦相似度

把两个向量看成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。余弦相似度是利用两个向量之间的夹角的余弦值来衡量两个向量之间的余弦相似度。

在n维空间中,对于向量

​,其余弦值为:

夹角余弦取值范围为[-1,1]。余弦值越大表示两个向量的夹角越小,则两个向量越相似;夹角余弦越小表示两向量的夹角越大,则两个向量差异越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

两个向量夹角的余弦值为预先相似度,如果想得到余弦距离,则将1减去余弦相似度即为余弦距离。

用python代码表示如下:

cosine = (float(np.dot(vector_1, vector_2)) / 
               (np.linal
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值