神经网络之密集的词向量如何能够代表稀疏的词向量

原创于 2025-10-27 08:22:51 发布 · 713 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习 #人工智能

深度学习专栏收录该内容

73 篇文章

订阅专栏

🧠 一、核心问题回顾

我们有两个向量表示：

稀疏向量（Sparse Vector）
- 通常是 One-hot 或共现矩阵（co-occurrence matrix）的一行。
- 维度非常高（几万甚至几百万）。
- 大多数维度为 0。
- 每个维度代表某个词、上下文、或特征。
密集向量（Dense Vector）
- 维度较低（几十到几百）。
- 每个维度是一个“混合语义特征”。
- 是从稀疏空间“学习压缩”出来的。

问题是：

为什么密集向量（低维）能代表稀疏向量（高维）中的语义关系？

⚙️ 二、直观理解：从“身份编号”到“语义坐标”

稀疏表示（如 one-hot）就像：

给每个词一个唯一的编号；
每个词在空间中是一个孤立的点；
两个词之间没有任何几何或统计关系。

密集表示（embedding）相当于：

用实数向量为每个词找到一个“坐标”；
坐标位置由语料中的共现规律决定；
距离近的词出现在相似上下文中；
实际上是对稀疏信息的一种语义压缩与泛化。

🧮 三、数学视角：稀疏向量的低维逼近

1. 设定

假设我们有一个词汇表 ( V )，每个词 $w_i )$ 的稀疏表示是一个高维向量 $\mathbf{x}_i \in \mathbb{R}^N )$ ，其中 ( N ) 可以是：

词-上下文共现矩阵的列数；
或词的 One-hot 向量维度。

这些 $\mathbf{x}_i )$ 形成一个庞大的矩阵：

$$
X =
\begin{bmatrix}

* & \mathbf{x}_1^T & - \
* & \mathbf{x}_2^T & - \
  & \vdots &  \
* & \mathbf{x}_V^T & -
  \end{bmatrix}
  \in \mathbb{R}^{V \times N}

2. 稀疏矩阵的问题

$(X)$ 非常稀疏（绝大部分为 0）；
$(N)$ 可能比 $(V)$ 还大（几百万级别）；
存储与计算都不可行；
直接比较词与词的相似度几乎没有意义。

3. 低维表示的思想

我们希望找到一个低维矩阵 $\in \mathbb{R}^{V \times d} )$ ，
使得每一行 $\mathbf{e}_i )$ （词的 embedding 向量）
能“近似保留”原稀疏向量的语义结构：

$\approx E W^T$
其中 $\in \mathbb{R}^{N \times d} )$ 是“解码矩阵”或“上下文向量矩阵”。

🔹 换句话说：

稀疏向量 $\mathbf{x}_i )$ 在高维空间中；
我们用一个线性变换 ( E ) 把它投影到低维空间；
要求这种投影仍能近似原有的相似关系。

📘 四、从线性代数看：稀疏矩阵的低秩分解

低维词向量的本质，其实是一种矩阵分解（Matrix Factorization）。

1. LSA（Latent Semantic Analysis）

最早的思想来自 LSA：

构造一个词-文档矩阵 ( X )（TF-IDF 权重）；
对其做奇异值分解（SVD）：

$\Sigma V^T$

取前 ( k ) 个奇异值和对应列：
$X_k = U_k \Sigma_k V_k^T$

此时：

$U_k \Sigma_k )$ 就是词的密集表示；
它在最小平方误差意义下，是原稀疏矩阵的最优低维逼近。

💡 所以：密集词向量是稀疏矩阵的低秩近似。

2. GloVe、Word2Vec 的联系

Word2Vec、GloVe 虽然没有显式使用 SVD，但本质上也是在做类似的事：

Word2Vec Skip-gram 模型训练目标：
$\text{maximize} \quad \sum_{(i,j)} \log P(w_j|w_i)$
这等价于在隐式地分解一个共现概率矩阵 $P(w_j|w_i) )$ 。
GloVe 明确写出了目标函数：
$w_i^T \tilde{w}*j + b_i + \tilde{b}*j \approx \log(X*{ij})$
这里 $X*{ij} )$ 是共现次数。
也就是说：GloVe 直接对稀疏的共现矩阵做了对数平滑的低维分解。

🧩 五、直觉理解：从稀疏统计 → 密集语义

举个例子：

上下文	猫	狗	苹果
喵喵叫	5	0	0
吠叫	0	6	0
吃	4	4	6
水果	0	0	8

这就是一个稀疏的“词-上下文共现矩阵”。

我们希望找到低维向量：

猫: [0.9, 0.7]
狗: [0.8, 0.8]
苹果: [0.1, 0.9]

使得它们的相似度能重建上表的大致规律。
也就是说：

“猫”和“狗”向量接近（因为共现模式相似）；
“苹果”远离“猫”和“狗”（因为上下文不同）。

👉 所以密集向量是稀疏共现模式的压缩编码。

🔍 六、从信息论角度理解

从信息论的角度，embedding 是一种有信息保留的压缩编码（information-preserving compression）：

稀疏向量中包含大量冗余（比如“的”、“是”等高频词对所有词几乎都共现）；
通过训练，我们学到了一组低维基向量，使得：
$I(\text{词向量}; \text{共现统计}) \approx I(\text{原稀疏表示})$
即：保留了最有用的语义信息。

这就像主成分分析（PCA）提取主轴：
低维空间捕获高维数据中主要的变化方向（即语义主轴）。

🧠 七、总结：密集词向量“代表”稀疏向量的机制

层面	原理	说明
几何层面	稀疏空间的低维投影	保留距离与方向（语义）
线性代数层面	稀疏矩阵的低秩分解	$\approx E W^T )$
概率统计层面	共现概率建模	$(P(contextword)≈softmax(E))(P(\text{context}\text{word})\approx\text{softmax}(E))$
信息论层面	压缩编码	去掉冗余，保留语义信息