【NLP基础】常见的距离公式说明

本文详细介绍了NLP中常见的距离公式,包括余弦距离、欧式距离、曼哈顿距离、闵可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准化欧式距离和皮尔逊积矩相关系数。这些距离公式在信息检索、文本挖掘、数据挖掘等领域有广泛应用。
摘要由CSDN通过智能技术生成

零,基本知识预备

在二维平面中,设有两个向量 a → = ( x 1 , y 1 ) \overrightarrow{a}=(x_1,y_1) a =(x1,y1) , b → = ( x 2 , y 2 ) \overrightarrow{b}=(x_2,y_2) b =(x2,y2) θ \theta θ a → \overrightarrow{a} a b → \overrightarrow{b} b 的夹角,则有:

1) a → \overrightarrow{a} a b → \overrightarrow{b} b 数量积(又称点积)为
a → . b → = ∣ a → ∣ ∣ b → ∣ cos ⁡ θ (1.1) \overrightarrow{a}.\overrightarrow{b}=|\overrightarrow{a}||\overrightarrow{b}|\cos\theta\tag{1.1} a .b =a b cosθ(1.1)
2) a → \overrightarrow{a} a b → \overrightarrow{b} b 向量积(又称叉积外积)为
a → × b → = c → (1.2) \overrightarrow{a}\times \overrightarrow{b} = \overrightarrow{c}\tag{1.2} a ×b =c (1.2)
其中, c → \overrightarrow{c} c 的模长为
∣ c → ∣ = ∣ a → ∣ ∣ b → ∣ sin ⁡ θ (1.3) |\overrightarrow{c}|=|\overrightarrow{a}||\overrightarrow{b}|\sin\theta\tag{1.3} c =a b sinθ(1.3)
方向为: a → \overrightarrow{a} a b → \overrightarrow{b} b 的向量积 c → \overrightarrow{c} c 的方向与这两个向量所在平面垂直,且遵守右手定则 即:若坐标系是满足右手定则的,当右手的四指从 a → \overrightarrow{a} a 以不超过180度的转角转向 b → \overrightarrow{b} b 时,竖起的大拇指指向是 c → \overrightarrow{c} c 的方向。

3)若 a → \overrightarrow{a} a b → \overrightarrow{b} b 共线,且 b → ≠ 0 \overrightarrow{b}\ne0 b =0 则存在唯一的 λ \lambda λ 使得 a → = λ b → \overrightarrow{a}=\lambda\overrightarrow{b} a =λb ,即有
x 1 y 2 = x 2 y 1 (1.4) x_1y_2=x_2y_1\tag{1.4} x1y2=x2y1(1.4)
4)若 a → \overrightarrow{a} a b → \overrightarrow{b} b 垂直,则 a → . b → = 0 \overrightarrow{a}.\overrightarrow{b}=0 a .b =0 ,即有
x 1 x 2 + y 1 y 2 = 0 (1.5) x_1x_2+y_1y_2=0\tag{1.5} x1x2+y1y2=0(1.5)
n n n 维向量 V → = ( v 1 , v 2 , … , v n ) \overrightarrow{V}=(v_1,v_2,\dots,v_n) V =(v1,v2,,vn) 则向量 V → \overrightarrow{V} V 模长
∣ V → ∣ = v 1 2 + v 2 2 + ⋯ + v n 2 (1.6) |\overrightarrow{V}|=\sqrt{v_1^2+v_2^2+\dots+v_n^2}\tag{1.6} V =v12+v22++vn2 (1.6)

一,余弦距离

1,定义

余弦距离,又称为余弦相似性余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似度。

在二维平面中,向量 a → \overrightarrow{a} a b → \overrightarrow{b} b 的余弦相似性可以表示为:
cos ⁡ θ = a → . b → ∣ a → ∣ ∣ b → ∣ = x 1 x 2 + y 1 y 2 x 1 2 + y 1 2 x 2 2 + y 2 2 (1.7) \cos\theta=\frac{\overrightarrow{a}.\overrightarrow{b}}{|\overrightarrow{a}||\overrightarrow{b}|}=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\sqrt{x_2^2+y_2^2}}\tag{1.7} cosθ=a b a .b =x12+y12 x22+y22

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值