Python相似度评估

在评估相似度的时候,经常会用到“距离”:

1. 在计算图片的相似度时,我自己用到过余弦距离:

有没有搞错,又不是学几何,怎么扯到夹角余弦了?各位看官稍安勿躁。几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。

(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

(2)两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦

       类似的,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度。

  即:

       夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

import numpy as np

# 余弦相似度(法1):
def cosin_distance2(vector1, vector2):

    user_item_matric = np.vstack((vector1, vector2))
    sim = user_item_matric.dot(user_item_matric.T)
    norms = np.array([np.sqrt(np.diagonal(sim))])
    user_similarity = (sim / norms / norms.T)[0][1]
    return user_similarity

data = np.load("data/all_features.npy")
#sim = cosin_distance(data[22], data[828])
sim = cosin_distance2(data[22], data[828])
print(sim)


# 余弦相似度(法2)
from sklearn.metrics.pairwise import cosine_similarity
a = np.array([1, 2, 8, 4, 6])
a1 = np.argsort(a)
user_tag_matric = np.vstack((a, a1))
user_similarity = cosine_similarity(user_tag_matric)
print(user_similarity[0][1])

# 余弦相似度(法3)
from sklearn.metrics.pairwise import pairwise_distances
a = np.array([1, 2, 8, 4, 6])
a1 = np.argsort(a)
user_tag_matric = np.vstack((a, a1))
user_similarity = pairwise_distances(user_tag_matric, metric='cosine')
print(1-user_similarity[0][1])

需要注意的一点是,用pairwise_distances计算的Cosine distance是1-(cosine similarity)结果 

2.欧式距离

 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式

# 1) given two data points, calculate the euclidean distance between them
def get_distance(data1, data2):
    points = zip(data1, data2)
    diffs_squared_distance = [pow(a - b, 2) for (a, b) in points]
    return math.sqrt(sum(diffs_squared_distance))

3. 曼哈顿距离

从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源, 曼哈顿距离也称为城市街区距离(CityBlock distance)。

def Manhattan(vec1, vec2):
    npvec1, npvec2 = np.array(vec1), np.array(vec2)
    return np.abs(npvec1-npvec2).sum()
# Manhattan_Distance,

4.切比雪夫距离

国际象棋玩过么?国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?自己走走试试。你会发现最少步数总是max(| x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。

def Chebyshev(vec1, vec2):
    npvec1, npvec2 = np.array(vec1), np.array(vec2)
    return max(np.abs(npvec1-npvec2))
# Chebyshev_Distance

5.闵可夫斯基距离

闵氏距离不是一种距离,而是一组距离的定义

#!/usr/bin/env python
 
from math import*
from decimal import Decimal
 
def nth_root(value,n_root):
    root_value=1/float(n_root)
    return round(Decimal(value)**Decimal(root_value),3)
 
def minkowski_distance(x,y,p_value):
    return nth_root(sum(pow(abs(a-b),p_value) for a,b in zip(x,y)),p_value)
 
print(minkowski_distance([0,3,4,5],[7,6,3,-1],3))

 6.标准化欧氏距离

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路:既然数据各维分量的分布不一样,好吧!那我先将各个分量都“标准化”到均值、方差相等吧

def Standardized_Euclidean(vec1,vec2,v):
    from scipy import spatial
    npvec = np.array([np.array(vec1), np.array(vec2)])
    return spatial.distance.pdist(npvec, 'seuclidean', V=None)
# Standardized Euclidean distance
# http://blog.csdn.net/jinzhichaoshuiping/article/details/51019473

7. 马氏距离

def Mahalanobis(vec1, vec2):
    npvec1, npvec2 = np.array(vec1), np.array(vec2)
    npvec = np.array([npvec1, npvec2])
    sub = npvec.T[0]-npvec.T[1]
    inv_sub = np.linalg.inv(np.cov(npvec1, npvec2))
    return math.sqrt(np.dot(inv_sub, sub).dot(sub.T))
# MahalanobisDistance

 8.编辑距离

def Edit_distance_str(str1, str2):
    import Levenshtein
    edit_distance_distance = Levenshtein.distance(str1, str2)
    similarity = 1-(edit_distance_distance/max(len(str1), len(str2)))
    return {'Distance': edit_distance_distance, 'Similarity': similarity}
# Levenshtein distance

其中,输入数据是两个同维度的数组;

参考:

https://blog.csdn.net/u010412858/article/details/60467382

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要比较两张图像的相似度,可以使用Python中的图像处理库,如OpenCV或Pillow。以下是一些常见的方法: 1. 均方误差(MSE):计算两张图像像素值之间的差异平方的平均值。 2. 结构相似性指数(SSIM):计算两张图像结构、亮度和对比度之间的差异。 3. 相关系数:计算两张图像之间的线性相关性。 4. 直方图相似性:比较两张图像的灰度直方图。 5. 特征匹配:使用特征检测算法(如SIFT、SURF或ORB)检测两张图像中的关键点,并匹配它们之间的描述符。 这些方法中的每一种都有其优缺点,具体的选择取决于应用场景和需要达到的效果。 ### 回答2: Python图形相似度是指利用Python语言编写的程序来计算和比较不同图形之间的相似程度。图形相似度主要用于图像处理、计算机视觉和模式识别领域。 在Python中,可以使用各种图像处理库和算法来计算图形相似度。其中一种常用的方法是使用图像特征描述算法,例如局部二值模式(Local Binary Patterns,LBP)、方向梯度直方图(Histogram of Oriented Gradients,HOG)等。这些算法能够提取图像中的特征,并将其表示为数值形式,然后通过比较这些特征向量来计算相似度。 另外,还可以使用深度学习算法来计算图形相似度,例如卷积神经网络(Convolutional Neural Network,CNN)等。通过将图像输入训练好的神经网络中,可以得到一个表示图像特征的向量,然后通过比较这些向量来计算相似度。 除了特征描述算法和深度学习算法,还可以使用其他的图像相似度计算方法,例如结构相似性指数(Structural Similarity Index,SSIM)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)等。这些方法对比图像的亮度、对比度和结构等方面进行比较,从而得出相似度评估。 总之,Python图形相似度是利用Python编写的程序来计算和比较不同图形之间的相似程度。通过使用图像处理库和算法,可以提取图像中的特征,并将其表示为数值形式,然后通过比较这些特征向量来计算相似度。此外,还可以使用深度学习算法和其他相似度计算方法来实现图形相似度的计算。 ### 回答3: Python图形相似度是指通过Python程序来衡量和比较两个图形之间的相似程度。在计算机视觉和图像处理领域,图形相似度是一个重要的概念,可以用来判断两幅图像之间的差异程度,或者用于图像识别和图像匹配等任务。 Python提供了一些强大的库和工具,可以帮助我们计算图形相似度。其中最常用的是OpenCV库,它提供了许多图像处理和计算机视觉的功能,可以进行图像的比较和相似性分析。通过OpenCV,我们可以计算两个图像之间的结构相似性指数(SSIM),该指数可以衡量两个图像在结构和亮度方面的相似程度。 除了OpenCV之外,还有一些基于Python的图像特征提取和相似度计算的库,如scikit-image和PIL(Python Imaging Library)。这些库可以帮助我们提取图像的特征,比如色彩、纹理和形状等,并计算出两个图像之间的相似度评分。 在实际应用中,图形相似度可以用于许多领域,比如图像搜索、图像去重、人脸识别和目标跟踪等。通过使用Python编程,我们可以轻松地实现这些功能,并对图像数据进行相似度的计算和分析。 总之,Python图形相似度是通过使用Python编程实现的一种用于衡量和比较两个图形之间相似程度的方法。通过使用Python的图像处理和计算机视觉库,我们可以轻松地计算图像的相似度,并应用于各种实际应用中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值