原文地址:beyond-determinism-in-data-embracing-uncertainty-with-probabilistic-principal-component-analysis
2024 年 4 月 24 日
主成分分析法(Principal Component Analysis,PCA)是一种统计方法,它可以通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这组变量称为主成分。主成分分析的目标是在数据中找到方差最大的方向,并将这些方向作为新的坐标轴,以最大的保留数据的方差信息。具体来说,PCA通过以下步骤实现:
1. 数据标准化:为了消除不同变量间的量纲影响,首先需要对数据进行标准化处理。
2. 计算协方差矩阵:协方差矩阵描述了数据中各变量间的相关性。
3. 计算特征值和特征向量:通过对协方差矩阵进行特征分解,找到其特征值和对应的特征向量。
4. 选择主成分:根据特征值的大小,选择最大的几个特征值对应的特征向量作为主成分。
5. 形成新的数据集:将原始数据投影到选取的主成分上,形成新的数据集。
主成分分析法在数据降维、信号处理、图像处理等领域有广泛的应用。通过PCA,可以去除数据中的噪声和冗余信息,简化数据的复杂性,同时尽可能保留原始数据的信息量。
介绍
在现代工业数据驱动的环境中,在承认固有数据不确定性的同时有效降低维度的能力可能会产生重大影响。这就是概率主成分分析 (PPCA) 作为强大的统计工具的闪光点,它通过结合概率框架来增强传统主成分分析 (PCA) 的功能。
背景
概率主成分分析(PPCA)是一种统计技术,它扩展了经典的主成分分析(PCA)方法。PCA 试图找到一组能解释数据中最大方差的正交方向(主成分),而 PPCA 则整合了一个概率框架,允许对观测数据和相关不确定性进行建模。
PPCA 将数据 X 建模为由低维潜在变量 Z 加上一些噪声生成。数据生成过程可描