【AI知识点】点积相似性（dot-product similarity）

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】

点积相似性（dot-product similarity）是一种通过计算两个向量的点积（dot product）来衡量它们之间相似性的方法。点积相似性在机器学习和深度学习中广泛应用，尤其在嵌入向量（Embedding Vector）空间中，用于衡量两个向量之间的相似度。它的计算方式非常简单，但却能够在很多场景下有效评估向量之间的关系。

1. 什么是点积？

点积（也称为内积）是线性代数中的基本运算之一。给定两个向量 $\mathbf{a} = (a_1, a_2, \dots, a_n)$ 和 $\mathbf{b} = (b_1, b_2, \dots, b_n)$ ，它们的点积定义为：

$\mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i b_i = a_1 b_1 + a_2 b_2 + \dots + a_n b_n$

点积的结果是一个标量（单一数值），而不是一个新的向量。这个标量可以用来衡量两个向量之间的相似性。

2. 点积相似性如何衡量向量之间的关系？

点积相似性能够反映两个向量之间的方向和长度。具体来说：

当两个向量方向相同时，它们的点积是正数，并且点积的值越大，相似性越强。
当两个向量方向相反时，它们的点积是负数，表示它们是反相似的。
当两个向量正交（即方向互相垂直）时，它们的点积是零，表示它们彼此完全不相关。

因此，点积值的大小和符号可以反映向量之间的相似性关系。数值越大，表示这两个向量越相似；数值越小甚至为负，表示它们越不相似。

3. 几何解释

点积相似性在几何上可以通过角度解释。两个向量的点积可以表示为：

$\mathbf{a} \cdot \mathbf{b} = ||\mathbf{a}|| ||\mathbf{b}|| \cos \theta$

其中：

$||\mathbf{a}||$ 和 $||\mathbf{b}||$ 分别是向量 $\mathbf{a}$ 和 $\mathbf{b}$ 的模（即长度）。
$\theta$ 是这两个向量之间的夹角。

根据这一公式可以得出：

当 $\theta = 0^\circ$ 时，两个向量完全平行，点积达到最大值，表示它们高度相似。
当 $\theta = 90^\circ$ 时，两个向量正交，点积为零，表示它们不相关。
当 $\theta = 180^\circ$ 时，两个向量反向，点积为负数，表示它们不相似甚至是反相似。

4. 在机器学习中的应用

点积相似性在机器学习中应用广泛，特别是在嵌入模型和向量表示中。以下是一些典型的应用场景：

a. 向量嵌入模型

在自然语言处理（NLP）中，词向量（如Word2Vec、GloVe等）和句子嵌入通过将词或句子表示为向量，点积相似性用于计算两个词或句子之间的相似性。例如，在一个问答系统中，用户的问题和答案可以被嵌入为向量，系统通过计算它们之间的点积来判断它们的相似性，从而检索出最相关的答案。

b. 推荐系统

推荐系统经常使用点积相似性来计算用户和物品之间的相似度。用户和物品可以表示为向量，点积相似性用来衡量用户与物品的匹配度，帮助推荐系统给用户推荐更符合他们兴趣的物品。

c. 深度学习中的注意力机制

在自注意力机制（self-attention）中，点积相似性用于衡量查询向量（query）和键向量（key）之间的相似性。通过点积计算，可以知道哪个键向量与查询向量更相似，从而赋予其更高的注意力权重。

5. 与余弦相似度的关系

点积相似性和余弦相似度（Cosine Similarity）有密切的关系。余弦相似度是点积的一种归一化版本，专注于向量的方向而忽略了它们的长度。余弦相似度定义为：

$\cos \theta = \frac{\mathbf{a} \cdot \mathbf{b}}{||\mathbf{a}|| ||\mathbf{b}||}$

余弦相似度的取值范围为 $[- 1, 1]$ ，其中 $1$ 表示完全相似， $0$ 表示不相关， $- 1$ 表示完全相反。与点积相似度不同，余弦相似度消除了向量长度的影响，因此更加关注两个向量的方向是否一致。

如果两个向量都经过归一化（长度为1），那么点积相似性和余弦相似度是等价的。

6. 示例：在文本检索中的应用

假设我们要做一个简单的文本检索系统，其中每个问题和段落都被嵌入为向量。检索系统通过计算用户问题向量与段落向量的点积，来衡量段落与问题的相关性。

比如：

用户问题的向量： $\mathbf{q} = [0.2, 0.7, 0.1]$
段落1的向量： $\mathbf{p_1} = [0.3, 0.6, 0.2]$
段落2的向量： $\mathbf{p_2} = [0.8, 0.2, 0.1]$

计算每个段落与问题的点积相似性：

$\mathbf{q} \cdot \mathbf{p_1} = 0.2 \times 0.3 + 0.7 \times 0.6 + 0.1 \times 0.2 = 0.06 + 0.42 + 0.02 = 0.5$
$\mathbf{q} \cdot \mathbf{p_2} = 0.2 \times 0.8 + 0.7 \times 0.2 + 0.1 \times 0.1 = 0.16 + 0.14 + 0.01 = 0.31$