数据挖掘之向量距离与相似性度量计算

本文详细介绍了数据挖掘中常用的向量距离和相似性度量方法,包括欧式距离、曼哈顿距离、切比雪夫距离、闵氏距离、马氏距离、余弦距离、汉明距离、杰卡德相似系数、相关系数、信息熵、半正矢距离以及Sørensen-Dice系数,这些概念在图像识别、文本分析等领域有广泛应用。
摘要由CSDN通过智能技术生成

(1)欧式距离

欧几里得度量(educlidean metric),指在m维空间中两点之间的真实距离,或者向量的自然长度,即该点到原点的距离。
在这里插入图片描述
标准化欧氏距离是针对欧氏距离的缺点而作的一种改进:
在这里插入图片描述
如果将方差的倒数看成一个权重,也可称之为加权欧氏距离。

(2)曼哈顿距离

Manhattan Distance,也称为城市街区距离(City Block distance)。如果把欧式距离理解成点到点的直线距离,那么曼哈顿距离就指的是两点之间的实际距离(不一定是直线)。
在这里插入图片描述

(3)切比雪夫距离

切比雪夫距离(Chebyshev distance)或是L∞度量,是向量空间中的一种度量,二个点之间的距离定义是其各坐标数值差绝对值的最大值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值