【NLP基础】常见的距离公式说明_nlp 内容距离计算-CSDN博客

本文链接：https://blog.csdn.net/tiantangdegezi/article/details/102985122

本文详细介绍了NLP中常见的距离公式，包括余弦距离、欧式距离、曼哈顿距离、闵可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准化欧式距离和皮尔逊积矩相关系数。这些距离公式在信息检索、文本挖掘、数据挖掘等领域有广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

零，基本知识预备

在二维平面中，设有两个向量 $\overrightarrow{a}=(x_1,y_1)$ , $\overrightarrow{b}=(x_2,y_2)$ ， $\theta$ 为 $\overrightarrow{a}$ 和 $\overrightarrow{b}$ 的夹角，则有：

1） $\overrightarrow{a}$ 与 $\overrightarrow{b}$ 的数量积（又称点积）为
$\overrightarrow{a}.\overrightarrow{b}=|\overrightarrow{a}||\overrightarrow{b}|\cos\theta\tag{1.1}$
2） $\overrightarrow{a}$ 与 $\overrightarrow{b}$ 的向量积（又称叉积或外积）为
$\overrightarrow{a}\times \overrightarrow{b} = \overrightarrow{c}\tag{1.2}$
其中， $\overrightarrow{c}$ 的模长为
$|\overrightarrow{c}|=|\overrightarrow{a}||\overrightarrow{b}|\sin\theta\tag{1.3}$
方向为： $\overrightarrow{a}$ 与 $\overrightarrow{b}$ 的向量积 $\overrightarrow{c}$ 的方向与这两个向量所在平面垂直，且遵守右手定则 即：若坐标系是满足右手定则的，当右手的四指从 $\overrightarrow{a}$ 以不超过180度的转角转向 $\overrightarrow{b}$ 时，竖起的大拇指指向是 $\overrightarrow{c}$ 的方向。

3）若 $\overrightarrow{a}$ 与 $\overrightarrow{b}$ 共线，且 $\overrightarrow{b}\ne0$ 则存在唯一的 $\lambda$ 使得 $\overrightarrow{a}=\lambda\overrightarrow{b}$ ，即有
$x_1y_2=x_2y_1\tag{1.4}$
4）若 $\overrightarrow{a}$ 与 $\overrightarrow{b}$ 垂直，则 $\overrightarrow{a}.\overrightarrow{b}=0$ ，即有
$x_1x_2+y_1y_2=0\tag{1.5}$
设 $n$ 维向量 $\overrightarrow{V}=(v_1,v_2,\dots,v_n)$ 则向量 $\overrightarrow{V}$ 的模长为
$|\overrightarrow{V}|=\sqrt{v_1^2+v_2^2+\dots+v_n^2}\tag{1.6}$

一，余弦距离

1，定义

余弦距离，又称为余弦相似性或余弦相似度，是通过计算两个向量的夹角余弦值来评估他们的相似度。

在二维平面中，向量 $\overrightarrow{a}$ 与 $\overrightarrow{b}$ 的余弦相似性可以表示为：
$\cos\theta=\frac{\overrightarrow{a}.\overrightarrow{b}}{|\overrightarrow{a}||\overrightarrow{b}|}=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\sqrt{x_2^2+y_2^2}}\tag{1.7}$