向量距离和相似度

图片、文本等往往通过提取它们的特征向量,再计算距离作为相似性判断的依据。常见的距离有如下几个:

1.欧式距离
欧式距离是最常见的距离度量,指的是多维空间中两个点之间的绝对距离,可以理解为真实距离,自然长度。
计算公式如下:
在这里插入图片描述
实现代码:

d1=np.sqrt(np.sum(np.square(x-y)))

2.余弦距离
余弦距离也称为余弦相似度,是通过计算两个向量之间夹角的余弦值大小来表示二者之间的相似度。余弦值接近1,即两向量夹角接近0度,表示两向量越相似。图片等可以通过算子(如orb、sift)或者神经网络预训练模型提取特征向量,再计算二者之间的余弦距离判断相似度。可以用于图片的匹配,识别等任务中。
计算公式如下:
在这里插入图片描述
实现代码:

d1 = np.dot(x, y) / (np.linalg.norm(x) * np.linalg.norm(y))

3.编辑距离
编辑距离用来比较两个字符串之间的相似度,表示的是两个字符串之间互相转换所需要的最少字符操作,包括删除、插入、替换。主要用于DNA分析、抄袭、语音辨识,也可以作为OCR识别结果的判断指标之一。特殊的,当两个字符串的长度相同时,编辑距离也可以理解为汉明距离,表示两个字符串对应位置的不同字符的个数。
实现代码:

def edit_distance(word1, word2):
    len1 = len(word1)
    len2 = len(word2)
    dp = np.zeros((len1 + 1,len2 + 1))
    for i in range(len1 + 1):
        dp[i][0] = i    
    for j in range(len2 + 1):
        dp[0][j] = j
     
    for i in range(1, len1 + 1):
        for j in range(1, len2 + 1):
            delta = 0 if word1[i-1] == word2[j-1] else 1
            dp[i][j] = min(dp[i - 1][j - 1] + delta, min(dp[i-1][j] + 1, dp[i][j - 1] + 1))
    return dp[len1][len2]

4.SSIM和PSNR
PSNR为峰值信噪比,是一种图像压缩领域中信号重建质量的测量方法,它通过均方差(MSE)进行定义。SSIM由亮度对比、结构对比、对比度对比三部分组成,用来判断图片压缩后的质量。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值