距离、相似性度量与熵

本文详细介绍了数据挖掘和机器学习中常用的距离度量方法,包括曼哈顿距离、欧几里得距离、切比雪夫距离等,并探讨了马哈拉诺比斯距离、巴塔恰里雅距离以及Hamming距离。同时,文章还讨论了相似度计算中的余弦相似性和Jaccard相似系数,并讲解了信息熵和交叉熵的概念。这些度量在理解和处理多维数据时至关重要。
摘要由CSDN通过智能技术生成

主要是数据挖掘、机器学习等领域用到,所使用的变量通常是两个向量或空间中的两个点。

常见距离

定义n维空间中的两个点(即表示为n维向量)
点1 x 1 ⃗ = { x 11 , x 12 , … , x 1 n } \vec {x_1} = \{x_{11}, x_{12}, \ldots, x_{1n}\} x1 ={ x11,x12,,x1n}和点2
x 2 ⃗ = { x 21 , x 22 , … , x 2 n } \vec {x_2} = \{x_{21}, x_{22}, \ldots, x_{2n}\} x2 ={ x21,x22,,x2n}

几种距离的计算相当于向量中的 p − p- p范数。

1. 曼哈顿距离(Manhattan Distance)

也叫城市街区距离(City Block distance)
d = ∣ x 11 − x 21 ∣ + ∣ x 12 − x 22 ∣ + … + ∣ x 1 n − x 2 n ∣ = ∑ k = 1 n ∣ x 1 k − x 2 k ∣ d = |x_{11}-x_{21}|+|x_{12}-x_{22}| + \ldots + |x_{1n}-x_{2n}| = \sum_{k=1}^n |x_{1k}-x_{2k}| d=x11x21+x12x22++x1nx2n=<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值