scipy.spatial 距离计算模块

最新推荐文章于 2023-11-27 17:20:54 发布

mishidemudong

最新推荐文章于 2023-11-27 17:20:54 发布

阅读量7.1k

点赞数 3

分类专栏： python 工具包数据结构与算法

python 工具包同时被 2 个专栏收录

134 篇文章

订阅专栏

数据结构与算法

91 篇文章

订阅专栏

在scipy.spatial中最重要的模块应该就是距离计算模块distance了。

from scipy import spatial

距离计算

矩阵距离计算函数

矩阵参数每行代表一个观测值，计算结果就是每行之间的metric距离。Distance matrix computation from a collection of raw observation vectors stored in a rectangular array.

向量距离计算函数Distance functions between two vectors u and v

Distance functions between two vectors u and v. Computingdistances over a large collection of vectors is inefficient for thesefunctions. Use pdist for this purpose.

输入的参数应该是向量，也就是维度应该是(n, )，当然也可以是(1, n)它会使用squeeze自动去掉维度为1的维度；但是如果是多维向量，至少有两个维度>1就会出错。

e.g. spatial.distance.correlation(u, v) #计算向量u和v之间的相关系数（pearson correlation coefficient, Centered Cosine）

Note: 如果向量u和v元素数目都只有一个或者某个向量中所有元素相同（分母norm(u - u.mean())为0），那么相关系数当然计算无效，会返回nan。

`braycurtis`(u, v)	Computes the Bray-Curtis distance between two 1-D arrays.
`canberra`(u, v)	Computes the Canberra distance between two 1-D arrays.
`chebyshev`(u, v)	Computes the Chebyshev distance.
`cityblock`(u, v)	Computes the City Block (Manhattan) distance.
`correlation`(u, v)	Computes the correlation distance between two 1-D arrays.
`cosine`(u, v)	Computes the Cosine distance between 1-D arrays.
`dice`(u, v)	Computes the Dice dissimilarity between two boolean 1-D arrays.
`euclidean`(u, v)	Computes the Euclidean distance between two 1-D arrays.
`hamming`(u, v)	Computes the Hamming distance between two 1-D arrays.
`jaccard`(u, v)	Computes the Jaccard-Needham dissimilarity between two boolean 1-D arrays.
`kulsinski`(u, v)	Computes the Kulsinski dissimilarity between two boolean 1-D arrays.
`mahalanobis`(u, v, VI)	Computes the Mahalanobis distance between two 1-D arrays.
`matching`(u, v)	Computes the Matching dissimilarity between two boolean 1-D arrays.
`minkowski`(u, v, p)	Computes the Minkowski distance between two 1-D arrays.
`rogerstanimoto`(u, v)	Computes the Rogers-Tanimoto dissimilarity between two boolean 1-D arrays.
`russellrao`(u, v)	Computes the Russell-Rao dissimilarity between two boolean 1-D arrays.
`seuclidean`(u, v, V)	Returns the standardized Euclidean distance between two 1-D arrays.
`sokalmichener`(u, v)	Computes the Sokal-Michener dissimilarity between two boolean 1-D arrays.
`sokalsneath`(u, v)	Computes the Sokal-Sneath dissimilarity between two boolean 1-D arrays.
`sqeuclidean`(u, v)	Computes the squared Euclidean distance between two 1-D arrays.
`wminkowski`(u, v, p, w)	Computes the weighted Minkowski distance between two 1-D arrays.
`yule`(u, v)	Computes the Yule dissimilarity between two boolean 1-D arrays.

[ 距离和相似度计算 ]

scipy.spatial.distance.pdist(X, metric=’euclidean’, p=2, w=None, V=None, VI=None)

pdist(X[, metric, p, w, V, VI])Pairwise distances between observations in n-dimensional space.观测值（n维）两两之间的距离。Pairwise distances between observations in n-dimensional space.距离值越大，相关度越小。

注意，距离转换成相似度时，由于自己和自己的距离是不会计算的默认为0，所以要先通过dist = spatial.distance.squareform(dist)转换成dense矩阵，再通过1 - dist计算相似度。

metric：

1 距离计算可以使用自己写的函数。Y = pdist(X, f) Computes the distance between all pairs of vectors in Xusing the user supplied 2-arity function f.

如欧式距离计算可以这样：

dm = pdist(X, lambda u, v: np.sqrt(((u-v)**2).sum()))

但是如果scipy库中有相应的距离计算函数的话，就不要使用dm = pdist(X, sokalsneath)这种方式计算，sokalsneath调用的是python自带的函数，会调用c(n, 2)次；而应该使用scipy中的optimized C version，使用dm = pdist(X, 'sokalsneath')。

再如矩阵行之间的所有cause effect值的计算可以这样：

def causal_effect(m):
    effect = lambda u, v: u.dot(v) / sum(u) - (1 - u).dot(v) / sum(1 - u)
    return spatial.distance.squareform(spatial.distance.pdist(m, metric=effect))