LDA与PCA：降维算法的绚丽舞台

最新推荐文章于 2024-07-24 15:50:22 发布

洞深视界

最新推荐文章于 2024-07-24 15:50:22 发布

阅读量1.1k

点赞数 15

文章标签：算法聚类数据挖掘人工智能机器学习 git windows

未经授权禁止以任何方式转载

本文链接：https://blog.csdn.net/deepviewinsight/article/details/136054328

版权

欢迎来到降维算法的绚丽舞台！今天我们将探索两位备受瞩目的明星：线性判别分析（LDA）和主成分分析（PCA）。这两位算法在数据科学的舞台上独具光彩，为我们提供了在高维数据中寻找潜在关系的有力工具。让我们一同揭开它们的神秘面纱，探索它们在数据降维领域的绚丽表演。

背景：高维数据的挑战

在大数据时代，我们经常面临一个共同的问题：高维数据。当特征数量众多时，不仅增加了计算的复杂性，还可能引入冗余信息和噪声。这时，降维算法就登场了，它们能够将高维数据映射到一个低维空间，保留重要信息的同时减少计算负担。

LDA的舞台：发现潜在关系

LDA的基本原理

线性判别分析，简称LDA，是一种有监督的降维算法。它不仅关注于降维，更注重在低维空间中使不同类别之间的距离最大化，同一类别内部的距离最小化。

让我们通过一个生动的例子来理解LDA的基本原理。

场景设置：假设我们有一群小鸟，分为两类：红色小鸟和蓝色小鸟。我们希望找到一个平面，使得在这个平面上，红色小鸟和蓝色小鸟分布得更开，并且同一颜色的小鸟更加聚集在一起。

import numpy as np
import matplotlib.pyplot as plt

# 生成样本数据
np.random.seed(42)

# 红色小鸟的坐标
red_birds = np.random.multivariate_normal(mean=[1, 1], cov=[[1, 0.5], [0.5, 1]], size=100)

# 蓝色小鸟的坐标
blue_birds = np.random.multivariate_normal(mean=[4, 4], cov=[[1, 0.5], [0.5, 1]], size=100)

# 绘制样本数据
plt.scatter(red_birds[:, 0], red_birds[:, 1], color='red', label='Red Birds')
plt.scatter(blue_birds[:, 0], blue_birds[:, 1], color='blue', label='Blue Birds')
plt.title('样本数据：红色小鸟与蓝色小鸟')
plt.legend()
plt.show()

在上述代码中，我们生成了两类小鸟的坐标数据，红色小鸟和蓝色小鸟在二维平面上分布。接下来，我们将使用LDA找到一个平面，使得两类小鸟在这个平面上分布得更开，并且同一类别的小鸟更加聚集在一起。

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

# 将样本数据标记为红色和蓝色
labels = np.array([0] * 100 + [1] * 100)

# 使用LDA进行降维
lda = LDA(n_components=1)
birds_lda = lda.fit_transform(np.vstack([red_birds, blue_birds]), labels)

# 绘制降维后的数据
plt.scatter(birds_lda[:100], np.zeros(100), color='red', label='Red Birds')
plt.scatter(birds_lda[100:], np.zeros(100), color='blue', label='Blue Birds')
plt.title('LDA降维后的数据')
plt.legend()
plt.show()

在这段代码中，我们使用LDA将样本数据从二维降维到一维，找到了一个平面，使得红色小鸟和蓝色小鸟在这个平面上分布得更开，并且同一类别的小鸟更加聚集在一起。

LDA的实际应用

LDA不仅在小鸟的故事中有用，在实际应用中也发挥着巨大的作用。例如，在人脸识别领域，LDA能够在低维空间中提取人脸特征，使得同一个人的人脸更加接近，不同人的人脸更加分散。

from sklearn.datasets import fetch_olivetti_faces
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载人脸数据集
faces = fetch_olivetti_faces(shuffle=True, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(faces.data, faces.target, test_size=0.2, random_state=42)

# 使用LDA进行降维
lda_faces = LDA(n_components=100)
X_train_lda = lda_faces.fit_transform(X_train, y_train)
X_test_lda = lda_faces.transform(X_test)

# 利用降维后的数据进行人脸识别
from sklearn.neighbors import KNeighborsClassifier

# 使用K近邻分类器
knn_classifier = KNeighborsClassifier(n_neighbors=1)
knn_classifier.fit(X_train_lda, y_train)
y_pred = knn_classifier.predict(X_test_lda)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'使用LDA的人脸识别准确率：{accuracy * 100:.2f}%')

在这个例子中，我们使用LDA将人脸数据集降维到100维，并使用K近邻分类器进行人脸识别。LDA在这里充当了特征提取的角色，显著提高了识别准确率。

PCA的独舞：数据的主成分

PCA的基本原理

主成分分析，简称PCA，是一种无监督的降维算法。它的目标是找到数据中的主要方向（主成分），将数据映射到这些主成分上，以达到降维的效果。

让我们通过一个简单的例子来理解PCA的基本原理。

场景设置：假设我们有一些飞机的飞行数据，包括飞行速度、飞行高度和飞行时间。我们希望找到一个新的坐标系，使得在新的坐标系中，数据的方差最大，即数据的主要方向。

import numpy as np
import matplotlib.pyplot as plt

# 生成样本数据
np.random.seed(42)

# 飞机的飞行数据
speed = np.random.normal(loc=300, scale=50, size=100)
height = np.random.normal(loc=10000, scale=1000, size=100)
time = np.random.normal(loc=2, scale=0.5, size=100)

# 绘制样本数据
fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(speed, height, time, c='blue', marker='o', alpha=0.5)
ax.set_xlabel('飞行速度')
ax.set_ylabel('飞行高度')
ax.set_zlabel('飞行时间')
ax.set_title('飞机的飞行数据')
plt.show()

在上述代码中，我们生成了飞机的飞行数据，包括飞行速度、飞行高度和飞行时间。接下来，我们将使用PCA找到一个新的坐标系，使得在新的坐标系中，数据的方差最大。

from sklearn.decomposition import PCA

# 将飞行数据组合成一个矩阵
flight_data = np.vstack([speed, height, time]).T

# 使用PCA进行降维
pca = PCA(n_components=2)
flight_pca = pca.fit_transform(flight_data)

# 绘制降维后的数据
plt.scatter(flight_pca[:, 0], flight_pca[:, 1], c='blue', marker='o', alpha=0.5)
plt.xlabel('主成分1')
plt.ylabel('主成分2')
plt.title('PCA降维后的飞机飞行数据')
plt.show()

在这段代码中，我们使用PCA将飞行数据降维到二维，找到了一个新的坐标系，使得在新的坐标系中，数据的方差最大。这两个新的维度被称为主成分。

PCA的实际应用

PCA不仅在飞机的故事中有用，在实际应用中也展现了其强大的功能。例如，在图像处理领域，PCA常常用于将图像降维，提取图像中的主要特征。

from sklearn.datasets import fetch_olivetti_faces
from sklearn.decomposition import PCA

# 加载人脸数据集
faces = fetch_olivetti_faces(shuffle=True, random_state=42)

# 使用PCA进行降维
pca_faces = PCA(n_components=100)
faces_pca = pca_faces.fit_transform(faces.data)

# 绘制降维后的数据
fig, axes = plt.subplots(2, 5, figsize=(15, 6), subplot_kw={'xticks': (), 'yticks': ()})
for i, ax in enumerate(axes.ravel()):
    ax.imshow(pca_faces.components_[i].reshape(64, 64), cmap='gray')
    ax.set_title(f'主成分 {i+1}')

plt.show()

在这个例子中，我们使用PCA将人脸数据集降维到100维，并展示了一些主成分。这些主成分代表了人脸数据中的主要特征，可以用于图像的重建和特征提取。

总结：LDA与PCA的绚丽舞台

LDA与PCA，分别以其独特的舞姿在数据降维的舞台上熠熠生辉。LDA通过有监督的方式，在降维的同时强调不同类别之间的差异；PCA则以无监督的方式，追求数据中的主成分，减少冗余信息。通过学习它们的舞姿，我们可以更好地应对高维数据的挑战，揭开数据背后的潜在关系，为数据科学的舞台增添一抹绚丽的色彩。让我们在这个绚丽的降维舞台上，与LDA与PCA一同起舞吧！

洞深视界

关注

15
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
LDA与PCA：降维算法的绚丽舞台

LDA与PCA，分别以其独特的舞姿在数据降维的舞台上熠熠生辉。LDA通过有监督的方式，在降维的同时强调不同类别之间的差异；PCA则以无监督的方式，追求数据中的主成分，减少冗余信息。通过学习它们的舞姿，我们可以更好地应对高维数据的挑战，揭开数据背后的潜在关系，为数据科学的舞台增添一抹绚丽的色彩。让我们在这个绚丽的降维舞台上，与LDA与PCA一同起舞吧！
复制链接

扫一扫