【机器学习】【base】 之 距离函数

如何度量两个对象之间的相似性呢?一般有两种方法,一种是对所有对象作特征投影,另一种则是距离计算。前者主要从直观的图像上反应对象之间的相似度关系,而后者则是通过衡量对象之间的差异度来反应对象之间的相似度关系。

(1)欧氏距离:

可以简单的描述为多维空间的点点之间的几何距离。

(2)曼哈顿距离


如果欧式距离看成是多维空间对象点点的直线距离,那么曼哈顿距离就是计算从一个对象到另一个对象所经过的折线距离,有时也可以进一步的描述为多维空间中对象在各维的平均差,取平均差之后的计算公式为,需要注意的是,曼哈顿距离取消了欧式距离的平方,因此使得离群点的影响减弱。

(3)切比雪夫距离

切比雪夫距离主要表现为在多维空间中,对象从某个位置转移到另外一个对象所消耗的最少距离(这种距离更加形象的体现了第一节中提到的编辑距离概念),因此可以简单的描述为用一维属性决定某对象属于哪个簇,这就好比我们去辨别一项罕见的现象一样,如果两个对象都存在这一罕见现象,那么这两个对象应该属于同一个簇。

(4)幂距离


可以简单的描述为针对不同的属性给予不同的权重值,决定其属于那个簇,,r,p为自定义的参数,根据实际情况选择,其中,p是用来控制各维的渐进权重,r控制对象间较大差值的渐进权重。当r=p时,即为闵可夫斯基距离,当p=r=1时为曼哈顿距离,当p=r=2时为欧式距离,当p=r并趋于无穷时即为切比雪夫距离(可以用极限理论证明).因此,这几种距离统称为闵氏距离,闵氏距离的不足在于:从横向(各维)看,它等同的看待了不同不同的分量,这种缺陷从切比雪夫距离中可以明显看出,忽略了不同维的差异。从纵向(单维)看,它忽略了不同维的各对象的分布差异,这种差异在统计学中可以用期望,方差,标准差等度量。

(5)余弦相似度

简单的描述为空间中两个对象的属性所构成的向量之间的夹角大小。即当两个向量方向完全相同时,相似度为1,即完全相似,当两个向量方向相反时,则为-1,即完全不相似。

(6)皮尔森相似度


可以描述为不同对象偏离拟合的中心线程度,可以进一步的理解为,许多对象的属性拟合成一条直线或者曲线,计算每个对象相对于这条线的各属性偏离程度,其中c为共有属性

(8)Jaccard相似度

Jaccard相似度常用于二值型数据的相似度计算。在数据挖掘中,经常将属性值二值化,通过计算Jaccard相似度,可以简单快速的得到两个对象的相似程度。

(10)加权的欧式距离

由上面的闵氏距离可知,其存在一定的缺陷,如何去减弱这种缺陷呢?一种简单的办法是对不同属性设置不同的权重,各权重之和为1,这样依然可以保证相似度的统一性,但是这种权重该如何选择呢?一种加权的欧式距离方法便可以将各维属性变换到标准化值。假设所有对象的X的均值为m,方差为s,则标准化后的值=(标准化前的值-各属性的均值)/各属性的标准差.

(11)相关系数距离

(12)马氏距离:即数据的协方差距离

其中,XY为样本中的对象,S为协方差矩阵。与欧式距离不同的是它考虑到各属性之间的联系,如考虑性别信息时会带来一条关于身高的信息,因为二者有一定的关联度,而且独立于测量尺度。

通过以上方法的计算,便可以得到两个对象之间的相似度(距离),在实际的计算当中,应该根据不同的对象其属性特点进行有效选择,对象的距离计算对于聚类算法的过程十分重要,直接影响着算法的有效性,所以实际选择时应当仔细选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值