数据探索与可视化:数据样本距离

本文介绍了数据样本距离的几种常见度量方式,包括欧式距离、曼哈顿距离、切比雪夫距离、余弦距离、相关系数距离和马氏距离。讨论了它们在数据探索、聚类分析和分类中的应用,并通过实例展示了不同距离度量对结果的影响。
摘要由CSDN通过智能技术生成

目录


一、前言

二、介绍

Ⅰ.欧式距离和曼哈顿距离

 ①欧式距离

②曼哈顿距离 

Ⅱ.切比雪夫距离和余弦距离

①切比雪夫距离

②余弦距离 

Ⅲ.相关系数距离和马氏距离

①相关系数距离

②马氏距离

三、结尾


一、前言

接下来,我们进入数据探索与可视化的最后一个部分:数据样本距离。对于给定的数据样本,每个样本具有多个特征,因此每个样本均是高维空间的一个点,那么在高维空间当中如何比较样本之间的距离远近或相似程度是个重要的点。 

二、介绍

距离在聚类分析,分类等多种应用中都有重要地位,不同的距离度量的方式可能会有不同的分析结果,那么接下来让我们来看看都有哪些: 

Ⅰ.欧式距离和曼哈顿距离

 ①欧式距离

欧式距离可解释为连接两个点的线段的长度。欧式距离公式非常简单,使用勾股定理从这些点的笛卡尔坐标计算距离。

D(X,Y)=\sqrt{\sum_{i=1}^{n}(Xi-Yi)^2} 

缺点:尽管这是一种常用的距离度量,但欧式距离并不是尺度不变的,这意味着所计算的距离可能会根据特征的单位发生倾斜。通常,在使用欧式距离度量之前,需要对数据进行归一化处理。 

此外,随着数据维数的增加,欧氏距离的作用也就越小。这与维数灾难(curse of dimensionality)有关。

import pandas as pd
import matplotlib.pyplot as plt
datadf=pd.read_csv(r'C:\Users\asuspc\Desktop\program\data\chap2\种子数据.csv')
datadf2=datadf.iloc[:,0:7]
from scipy.spatial import distance
dist=distance.cdist(datadf2,datadf2,'euclidean')
plot.figure(figsize=(8,6))
sns.heatmap(dist,cmap='YlGnBu')
plt.title('Euclidean')
plt.show()

cdist是两个数组之间求距离返回X*Y一个矩阵,还有一个pdist是对于一个数组内部的元素反复比对,返回一个列表求距离。然后我们用seaborn包中的热力图方法heatmap,将求好的欧氏距离dist放入,设置的cmap参数是指将数据值映射到颜色空间的不同颜色。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值