连续变量降维：主成分分析和因子分析

rubyw

已于 2023-11-22 17:13:34 修改

阅读量969

点赞数 7

分类专栏： # 概念和理论文章标签：算法数据分析

于 2023-11-22 17:11:00 首次发布

本文链接：https://blog.csdn.net/rubyw/article/details/134557633

版权

概念和理论专栏收录该内容

23 篇文章

订阅专栏

主成分分析（Principal Component Analysis，PCA）和因子分析（Factor Analysis）都是用于处理连续变量降维的统计方法，它们在数据分析和特征提取中经常被使用。尽管它们有一些相似之处，但它们的目标、假设和应用有一些不同之处。

主成分分析（PCA）：

目标： PCA的主要目标是找到数据中的主要方向，即主成分，以便减少数据的维度，同时最大程度地保留原始数据的变异性。
假设： PCA基于对数据的协方差矩阵的分解，它假设主成分是数据中最大方差的线性组合。主成分之间是正交的，即它们彼此独立。
应用： PCA常用于去除数据中的冗余信息，减少噪音，简化数据结构，并找到数据中的潜在模式。

因子分析：

目标： 因子分析的主要目标是揭示观察到的变量之间的潜在关系，即潜在因子。它试图找到导致观察到的变量之间协方差的潜在因子。
假设： 因子分析假设观察到的变量是潜在因子和特殊因子的线性组合，其中特殊因子是与具体变量相关的独特方差。与PCA不同，因子分析允许变量之间存在共同因子的相关性。
应用： 因子分析通常用于研究潜在结构，例如心理学中的智力结构，其中观察到的变量（测试分数）被假设由潜在的智力因子和特殊因子组成。

共同点：

降维： PCA和因子分析都用于降低数据的维度，以便更好地理解数据结构。
线性方法： 它们都是线性变换的方法，通过找到变量的线性组合来实现降维。
协方差： 两者都涉及到协方差矩阵的分析。

选择使用PCA还是因子分析通常取决于数据的性质和分析的目标。如果主要目标是减少维度并保留最大的变异性，PCA可能更合适。如果关注潜在的观察变量之间的结构和潜在因子，因子分析可能更为适用。

假设我们有一组涉及学生的考试成绩的数据，包括数学、物理和化学的得分。我们想要使用主成分分析（PCA）和因子分析（Factor Analysis）来降低维度并理解潜在结构。

主成分分析（PCA）的例子：

假设我们有100个学生的数学、物理和化学考试成绩，我们可以创建一个3维的数据集。我们可以使用PCA来找到主成分，这些主成分是原始变量的线性组合，以便最大程度地保留总体数据的方差。

在这个例子中，可能我们发现，第一个主成分主要与所有科目的平均分有关，第二个主成分可能与数学和物理相关，第三个主成分可能与化学相关。通过保留前两个主成分，我们可以在更低维度上表示学生的成绩，而且我们仍然保留了大部分原始数据的变异性。

因子分析的例子：

假设我们认为学生的考试成绩不仅仅是观察到的数学、物理和化学分数的线性组合，而且可能受到一些潜在因子的影响，比如"学科能力"、"学习动力"等。

在因子分析中，我们试图找到这些潜在因子，它们解释了观察到的变量之间的协方差。可能我们发现，有一个潜在因子与所有科目的表现有关，另一个潜在因子与数学和物理有关，而另一个潜在因子与化学有关。

因子分析帮助我们理解观察到的变量之间的潜在结构，并且每个因子可能解释了一些观察到的变量之间的共同性。

总的来说，PCA和因子分析都可以用于处理这个成绩数据集，但是选择取决于我们关心的是最大程度地保留变异性还是揭示观察到的变量之间的潜在结构。

代码例子说明

我将为你提供一个使用Python中的scikit-learn库进行主成分分析（PCA）和因子分析（Factor Analysis）的简单代码示例。请注意，为了运行这个示例，你需要安装scikit-learn库。你可以使用以下命令进行安装：

pip install scikit-learn

下面是一个简单的例子：

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA, FactorAnalysis
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# 生成一个随机的成绩数据集
np.random.seed(42)
data = np.random.rand(100, 3) * 50 + 50  # 生成在50-100之间的随机成绩数据
data[:, 1] += 20  # 使物理成绩相对于其他科目更高

# 将数据标准化（PCA和因子分析通常在标准化数据上工作）
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# PCA
pca = PCA(n_components=2)
pca_result = pca.fit_transform(data_scaled)

# 因子分析
fa = FactorAnalysis(n_components=2)
fa_result = fa.fit_transform(data_scaled)

# 可视化
def plot_results(data, result, title):
    plt.scatter(result[:, 0], result[:, 1])
    plt.title(title)
    plt.xlabel('Principal Component 1')
    plt.ylabel('Principal Component 2')
    plt.show()

plot_results(data_scaled, pca_result, 'PCA Result')
plot_results(data_scaled, fa_result, 'Factor Analysis Result')