【降维技术】非负矩阵分解（NMF）

最新推荐文章于 2025-03-13 18:56:02 发布

云博士的AI课堂

最新推荐文章于 2025-03-13 18:56:02 发布

阅读量1.2k

点赞数 11

分类专栏：哈佛博后带你玩转机器学习文章标签：非负矩阵分解 NMF 人工智能机器学习降维技术降维深度学习

本文链接：https://blog.csdn.net/l35633/article/details/145858758

版权

哈佛博后带你玩转机器学习专栏收录该内容

272 篇文章

订阅专栏

第6章：降维技术

第6节：非负矩阵分解（NMF）

非负矩阵分解（NMF）是一种常用的降维技术，它通过将一个非负矩阵分解成两个低秩的非负矩阵，从而揭示出数据中的潜在结构。NMF在数据降维、特征提取和模型可解释性等方面具有重要应用，尤其在文本分析、图像处理、推荐系统等领域。

在本节中，我们将介绍三个基于NMF的实际应用案例，展示如何在不同的行业和场景中运用这一技术。

案例1：文本数据的主题建模

案例描述

在文本挖掘和自然语言处理中，主题建模是理解和提取文档中潜在主题的关键任务。NMF常用于从大量的文档中提取出每个文档的主题分布，进而进行文本聚类、分类和推荐等应用。本案例使用NMF对一个新闻语料库进行主题建模，提取出其中的潜在主题。

案例分析

给定一个文档-词项矩阵，我们希望通过NMF将其分解成两个矩阵：

W矩阵：每个文档的主题分布（文档-主题矩阵）。
H矩阵：每个主题的词项分布（主题-词项矩阵）。

这种分解方式能够帮助我们揭示出文档中潜在的主题，并分析各个主题的关键词。

算法步骤

数据准备：使用文本数据集，并将其转换为词频矩阵。
应用NMF：对词频矩阵应用NMF进行分解，得到文档和主题的关系矩阵以及主题和词项的关系矩阵。
结果分析：通过分析主题-词项矩阵的高权重词项，理解每个主题的内容。

Python代码示例

import numpy as np
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt

# 示例文本数据
documents = [
    "Machine learning is the study of algorithms",
    "Natural language processing enables machines to understand human language",
    "Deep learning is a subset of machine learning",
    "NLP is used for sentiment analysis and text classification",
    "Reinforcement learning is used in robotics and gaming"
]

# 将文本数据转化为TF-IDF矩阵
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(documents)

# 应用NMF进行主题建模
num_topics = 2
nmf_model = NMF(n_components=num_topics, random_state=42)
W = nmf_model.fit_transform(X)  # 文档-主题矩阵
H = nmf_model.components_  # 主题-词项矩阵

# 打印每个主题的关键词
terms = vectorizer.get_feature_names_out()
for topic_idx, topic in enumerate(H):
    print(f"\n主题 {topic_idx + 1}:")
    print(" ".join([terms[i] for i in topic.argsort()[:-6 - 1:-1]]))  # 选择前5个高权重词项

# 可视化每个文档的主题分布
plt.figure(figsize=(10, 6))
for i in range(num_topics):
    plt.plot(W[:, i], label=f"主题 {i + 1}")
plt.legend()
plt.title('每个文档的主题分布')
plt.xlabel('文档编号')
plt.ylabel('主题权重')
plt.show()

代码详解

数据预处理：我们首先将文本数据转换为TF-IDF矩阵。TF-IDF是文本分析中常用的特征表示方法，可以减少常见词汇的影响，突出重要词汇。
NMF应用：使用NMF类对TF-IDF矩阵进行分解。n_components参数设置为2，即提取两个潜在的主题。
结果分析：通过查看每个主题的高权重词汇，我们可以理解该主题的主要内容。此外，W矩阵的每行表示每个文档的主题分布，我们也可以可视化这些分布。

总结

通过NMF，我们能够从新闻文本中提取出潜在的主题，并且理解每个主题的核心词汇。这一技术常用于文本挖掘和自然语言处理，尤其在推荐系统、舆情分析等应用中具有重要价值。

案例2：图像压缩与降维

案例描述

图像处理中的降维任务通常包括图像压缩和特征提取等。NMF作为一种非负矩阵分解方法，能够有效地压缩图像数据，减少存储空间，同时保留图像的主要特征。本案例通过NMF对图像进行压缩与降维，展示其在图像处理中的应用。

案例分析

假设我们有一个灰度图像，它可以被表示为一个矩阵，每个元素代表像素值。我们希望通过NMF将其分解为两个非负矩阵：

W矩阵：代表图像的主要特征。
H矩阵：代表图像的重建系数。

这种分解方法能帮助我们从原始图像中提取出最具信息量的特征，从而实现压缩和降维。

算法步骤

图像读取：读取并将图像转换为矩阵。
应用NMF：对图像矩阵应用NMF进行分解。
重建图像：通过W矩阵和H矩阵的乘积来重建图像。
比较原始图像和重建图像：计算压缩后的图像与原图之间的差异。

Python代码示例

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import NMF
from sklearn.datasets import fetch_olivetti_faces

# 加载Olivetti面孔数据集
dataset = fetch_olivetti_faces(shuffle=True, random_state=42)
faces = dataset.images

# 选择一张面孔图像进行处理
image = faces[0].reshape(1, -1)  # 将图像展平为向量

# 应用NMF进行图像压缩
n_components = 50
nmf_model = NMF(n_components=n_components, init='random', random_state=42)
W = nmf_model.fit_transform(image)  # 提取图像特征
H = nmf_model.components_  # 重建系数

# 使用W和H重建图像
reconstructed_image = np.dot(W, H)

# 将重建图像转回到原始的形状
reconstructed_image = reconstructed_image.reshape(faces[0].shape)

# 显示原图和重建图
plt.figure(figsize=(8, 4))
plt.subplot(1, 2, 1)
plt.imshow(faces[0], cmap='gray')
plt.title("原图像")
plt.subplot(1, 2, 2)
plt.imshow(reconstructed_image, cmap='gray')
plt.title("重建图像")
plt.show()

代码详解

图像读取与预处理：我们使用fetch_olivetti_faces加载了一个包含人脸图像的数据集。然后，选择一张图像并将其展平为一个向量，这样它可以作为NMF的输入。
NMF应用：我们对图像应用了NMF分解，n_components设置为50，意味着我们希望从图像中提取50个主要特征。
重建图像：使用W和H矩阵的乘积来重建图像，并显示原始图像与重建图像的对比。

总结

NMF在图像处理中的应用能够有效地压缩图像并提取出主要特征。在实际应用中，图像降维和压缩是非常重要的任务，尤其在图像存储、传输和快速识别等方面具有广泛的应用前景。

案例3：推荐系统中的用户-物品矩阵分解

案例描述

推荐系统中常见的矩阵分解方法之一是非负矩阵分解（NMF）。推荐系统通过对用户-物品评分矩阵进行分解，来发现用户的潜在兴趣和物品的潜在特征，从而为用户推荐个性化内容。本案例展示如何使用NMF进行推荐系统的用户-物品矩阵分解，并基于此提供个性化推荐。

案例分析

给定一个用户-物品评分矩阵，NMF可以将其分解为两个低秩的矩阵：

W矩阵：用户-潜在特征矩阵，表示用户在不同潜在特征下的偏好。
H矩阵：物品-潜在特征矩阵

算法步骤

数据准备：首先构建一个用户-物品评分矩阵，矩阵中的每个元素表示用户对某个物品的评分。
应用NMF：使用NMF对用户-物品矩阵进行分解，得到用户和物品的潜在特征矩阵。
推荐生成：通过用户的潜在特征矩阵和物品的潜在特征矩阵的乘积，预测用户对未评分物品的兴趣度，并根据预测值为用户推荐物品。

Python代码示例

import numpy as np
from sklearn.decomposition import NMF
import matplotlib.pyplot as plt

# 模拟用户-物品评分矩阵（评分范围：1到5）
user_item_matrix = np.array([
    [5, 0, 0, 2, 1],
    [4, 0, 0, 3, 0],
    [0, 0, 0, 5, 4],
    [0, 3, 0, 4, 0],
    [1, 5, 0, 0, 0]
])

# 应用NMF进行矩阵分解
n_components = 2  # 设定潜在特征的维度
nmf_model = NMF(n_components=n_components, init='random', random_state=42)
W = nmf_model.fit_transform(user_item_matrix)  # 用户-潜在特征矩阵
H = nmf_model.components_  # 物品-潜在特征矩阵

# 使用W和H的乘积重建评分矩阵
reconstructed_matrix = np.dot(W, H)

# 显示原始评分矩阵和重建评分矩阵
plt.figure(figsize=(10, 4))
plt.subplot(1, 2, 1)
plt.imshow(user_item_matrix, cmap='hot', interpolation='nearest')
plt.title("原始评分矩阵")
plt.colorbar()
plt.subplot(1, 2, 2)
plt.imshow(reconstructed_matrix, cmap='hot', interpolation='nearest')
plt.title("重建评分矩阵 (NMF)")
plt.colorbar()
plt.show()

# 为用户1（假设是第一个用户）推荐未评分的物品
user_idx = 0
predicted_ratings = reconstructed_matrix[user_idx]
# 找到未评分的物品
unrated_items = np.where(user_item_matrix[user_idx] == 0)[0]
# 按照预测评分排序，推荐评分最高的未评分物品
recommended_items = unrated_items[np.argsort(predicted_ratings[unrated_items])[::-1]]
print(f"为用户{user_idx+1}推荐的物品：", recommended_items + 1)  # 输出推荐的物品编号