非负矩阵分解（NMF）详解

DuHz

于 2025-04-13 11:54:07 发布

阅读量1.3k

点赞数 38

文章标签：矩阵线性代数深度学习机器学习笔记信号处理信息与通信

本文链接：https://blog.csdn.net/qq_44648285/article/details/147189747

版权

非负矩阵分解（NMF）详解

引言

非负矩阵分解（Non-negative Matrix Factorization，简称NMF）是一种在机器学习和数据挖掘领域广泛应用的矩阵分解技术。与传统的矩阵分解方法（如奇异值分解SVD）不同，NMF的最大特点是对分解后的矩阵元素施加了非负约束，这使得分解结果具有更好的可解释性，特别适合处理自然界中的非负数据，如图像、文本和音频等。

基本原理

假设我们有一个非负矩阵 $\in \mathbb{R}^{m \times n}_{+}$ （其中 $\mathbb{R}^{m \times n}_{+}$ 表示所有元素非负的 $\times n$ 实矩阵空间），NMF的目标是找到两个非负矩阵 $\in \mathbb{R}^{m \times r}_{+}$ 和 $\in \mathbb{R}^{r \times n}_{+}$ ，使得：

$\approx W \times H$

其中 $r$ 通常选择为远小于 $m$ 和 $n$ 的值（即 $\ll \min(m, n)$ ），这样可以实现数据的降维和压缩。

从直观上理解，如果将 $V$ 视为包含 $n$ 个数据样本（每个样本有 $m$ 个特征）的数据集，那么 $W$ 可以被视为 $r$ 个基向量（或主题），而 $H$ 则表示这些基向量的组合系数。由于所有元素都是非负的，我们可以将这种分解理解为一种"加性模型"，即每个数据样本都是由基本组件的非负组合构成的。

目标函数与优化

为了找到最佳的 $W$ 和 $H$ ，我们需要定义一个目标函数来衡量 $V$ 与 $\times H$ 之间的差异。常用的目标函数包括：

1. Frobenius范数

最常用的是基于Frobenius范数的平方误差：

$\min_{W, H \geq 0} \|V - WH\|_F^2 = \sum_{i=1}^{m}\sum_{j=1}^{n}(V_{ij} - (WH)_{ij})^2$

展开这个表达式，我们可以得到：

$\|V - WH\|_F^2 = \text{Tr}((V-WH)^T(V-WH)) = \text{Tr}(V^TV - V^TWH - H^TW^TV + H^TW^TWH)$

其中 $\text{Tr}(\cdot)$ 表示矩阵的迹。

2. 散度（Divergence）

另一种常用的目标函数是基于Kullback-Leibler散度的：

$\min_{W, H \geq 0} D_{KL}(V\|WH) = \sum_{i=1}^{m}\sum_{j=1}^{n}\left(V_{ij}\log\frac{V_{ij}}{(WH)_{ij}} - V_{ij} + (WH)_{ij}\right)$

这个散度函数在信息论中有深刻的意义，它衡量了两个概率分布之间的差异。当我们将矩阵 $V$ 和 $W H$ 归一化为概率分布时，KL散度提供了一种自然的度量方式。无论选择哪种目标函数，NMF的优化问题都是非凸的，这意味着可能存在多个局部最优解。因此，通常采用迭代算法来求解。

求解算法

乘法更新规则（Multiplicative Update Rules）

Lee和Seung在2001年提出的乘法更新规则是最经典的NMF求解算法。对于Frobenius范数目标函数，更新规则为：

$H_{kj} \leftarrow H_{kj} \frac{(W^T V)_{kj}}{(W^T W H)_{kj}}$

$W_{ik} \leftarrow W_{ik} \frac{(V H^T)_{ik}}{(W H H^T)_{ik}}$

这些更新规则可以通过梯度下降法推导出来。例如，对于 $H$ ，目标函数关于 $H_{kj}$ 的梯度为：

$\frac{\partial}{\partial H_{kj}} \|V - WH\|_F^2 = -2(W^TV)_{kj} + 2(W^TWH)_{kj}$

设定学习率为 $\eta_{kj} = \frac{H_{kj}}{2(W^TWH)_{kj}}$ ，则梯度下降更新为：

$H_{kj} \leftarrow H_{kj} - \eta_{kj} \cdot \frac{\partial}{\partial H_{kj}} \|V - WH\|_F^2 = H_{kj} \frac{(W^T V)_{kj}}{(W^T W H)_{kj}}$

对于KL散度目标函数，更新规则为：

$H_{kj} \leftarrow H_{kj} \frac{\sum_{i=1}^{m} W_{ik} \frac{V_{ij}}{(WH)_{ij}}}{\sum_{i=1}^{m} W_{ik}}$

$W_{ik} \leftarrow W_{ik} \frac{\sum_{j=1}^{n} H_{kj} \frac{V_{ij}}{(WH)_{ij}}}{\sum_{j=1}^{n} H_{kj}}$

这些更新规则保证了在每次迭代中目标函数单调递减，且自动满足非负约束（因为是乘法更新，只要初始值非负，更新后的值也一定非负）。

交替最小二乘法（Alternating Least Squares, ALS）

另一种常用的方法是交替最小二乘法，其基本思路是：

固定 $W$ ，求解 $H$ ：
$\min_{H \geq 0} \|V - WH\|_F^2$
固定 $H$ ，求解 $W$ ：
$\min_{W \geq 0} \|V - WH\|_F^2$

在每一步中，我们都将问题转化为带非负约束的最小二乘问题。例如，当固定 $W$ 时，对于 $H$ 的每一列 $h_j$ ，我们需要解决：

$\min_{h_j \geq 0} \|v_j - Wh_j\|_2^2$

其中 $v_j$ 是 $V$ 的第 $j$ 列。这是一个标准的非负最小二乘问题，可以使用投影梯度下降等方法求解。

NMF的几何解释

从几何角度看，NMF可以理解为在非负象限中寻找一个由 $r$ 个向量生成的锥体，使得原始数据点尽可能地落在这个锥体内或附近。这与主成分分析（PCA）寻找最佳线性子空间的思路不同，NMF寻找的是非负锥体，这使得分解结果具有更好的可解释性。具体来说，如果将 $V$ 的列向量视为数据点，那么 $W$ 的列向量可以视为生成锥体的基向量，而 $H$ 的每一列则表示将对应的数据点表示为这些基向量的非负线性组合的系数。

从数学上讲，NMF寻找的是一个凸锥（convex cone）：

$\mathcal{C} = \left\{ \sum_{k=1}^{r} \alpha_k w_k : \alpha_k \geq 0, k = 1,2,\ldots,r \right\}$

其中 $w_k$ 是 $W$ 的第 $k$ 列。原始数据点被近似为这个凸锥中的点。

NMF的变种与扩展

稀疏NMF

为了获得更加稀疏的解，可以在目标函数中添加L1正则化项：

$\min_{W, H \geq 0} \|V - WH\|_F^2 + \alpha\|W\|_1 + \beta\|H\|_1$

其中 $\|W\|_1 = \sum_{i,k}|W_{ik}|$ 和 $\|H\|_1 = \sum_{k,j}|H_{kj}|$ 分别是 $W$ 和 $H$ 的L1范数， $\alpha$ 和 $\beta$ 是正则化参数。

对于这种正则化的NMF，更新规则变为：

$H_{kj} \leftarrow H_{kj} \frac{(W^T V)_{kj}}{(W^T W H)_{kj} + \beta}$

$W_{ik} \leftarrow W_{ik} \frac{(V H^T)_{ik}}{(W H H^T)_{ik} + \alpha}$

正交NMF

为了使基向量之间更加正交，可以添加正交约束：

$\min_{W, H \geq 0} \|V - WH\|_F^2 \quad \text{s.t.} \quad W^TW = I$

这里 $I$ 是单位矩阵。正交约束使得基向量之间相互独立，有助于提高解的唯一性和可解释性。实际上，完全正交的约束在非负条件下可能过于严格，因此通常采用软约束形式：

$\min_{W, H \geq 0} \|V - WH\|_F^2 + \lambda\|W^TW - I\|_F^2$

其中 $\lambda$ 是权衡参数。

卷积NMF

对于时序数据，可以使用卷积NMF，其中 $V$ 被建模为 $W$ 和 $H$ 的卷积：

$\approx \sum_{k=1}^{r} W^k * H^k$

其中 $*$ 表示卷积操作， $W^k$ 是第 $k$ 个基本模式， $H^k$ 是其激活。

在频域中，卷积可以表示为：

$\mathcal{F}(V) \approx \sum_{k=1}^{r} \mathcal{F}(W^k) \odot \mathcal{F}(H^k)$

其中 $\mathcal{F}$ 表示傅里叶变换， $\odot$ 表示元素级乘法。

深入理解NMF的数学性质

收敛性分析

Lee和Seung证明了乘法更新规则保证目标函数单调递减。对于Frobenius范数目标函数，我们可以构造一个辅助函数 $G (H, H^{'})$ ，满足：

$\leq G(H, H')$
$F (H) = G (H, H)$

其中 $F(H) = \|V - WH\|_F^2$ ， $H^{'}$ 是当前估计。通过最小化 $G (H, H^{'})$ 关于 $H$ 的值，我们可以得到更新规则：

$H_{kj} \leftarrow H'_{kj} \frac{(W^T V)_{kj}}{(W^T W H')_{kj}}$

可以证明，这个更新规则保证 $\leq F(H')$ ，即目标函数单调递减。

唯一性问题

与SVD不同，NMF的解通常不是唯一的。具体来说，对于任意可逆矩阵 $S$ （满足 $S$ 和 $S^{-1}$ 都是非负的），如果 $\approx WH$ ，那么 $\approx (WS)(S^{-1}H)$ 也是一个有效的分解。然而，在实践中，由于问题的非凸性和算法的初始化条件，NMF通常会收敛到特定的局部最优解。此外，添加额外的约束（如稀疏性或正交性）可以减少解的不确定性。

复杂度和扩展性

对于大规模数据，NMF的计算复杂度可能成为一个挑战。标准乘法更新规则的每次迭代复杂度为 $O (mn r)$ ，其中 $m$ 和 $n$ 是矩阵 $V$ 的维度， $r$ 是潜在维度。为了处理大规模数据，研究人员提出了各种加速技术，如随机梯度下降、分布式计算和在线学习等。例如，在线NMF算法可以逐块处理数据，更新公式为：