聚类中的距离

因学习mahout重新学习与理解聚类中的距离的设定。

由于一般把文档等数据抽象成为向量来表示。直观的,用矩阵以及线性空间中的相关知识来理解距离。由于线性空间、度量空间的一些特性。我们可以把一个新的数据集,利用我们容易理解的,已知的空间特性,来类比和学习。

常用距离以及对应的范数

距离范数范数
曼哈顿距离(绝对值之和)1范数范数
欧氏距离(几何距离)2范数范数
欧氏距离(几何距离)2范数范数
欧氏距离(几何距离)2范数范数




一些基本知识:

如果线性空间上定义了范数,则称之为赋范线性空间。利用范数可以诱导出度量:d(x,y)=║x-y║,进而诱导出拓扑,因此赋范线性空间是度量空间

在理解一些其它的定义时,就可以用线性空间来更加理论化的理解了。


最常用的范数就是p-范数。若x=[x1,x2,...,xn]^T,那么

  ║x║p=(|x1|^p+|x2|^p+...+|xn|^p)^{1/p} 

 可以验证p-范数确实满足范数的定义。

其中三角不等式的证明不是平凡的,这个结论通常称为闵可夫斯基(Minkowski)不等式。 

 当p取1,2,∞的时候分别是以下几种最简单的情形:

  1-范数:║x║1=│x1│+│x2│+…+│xn│

  2-范数:║x║2=(│x1│^2+│x2│^2+…+│xn│^2)^1/2  

 ∞-范数:║x║∞=max(│x1│,│x2│,…,│xn│)


范数与距离之间的关系。

“范数||.||一定可以诱导出距离: d(x-y)=||x-y||(该距离甚至是平移不变的),但是反过来距离未必可以由范数来诱导。”


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值