主成分分析PCA

本文介绍了主成分分析(PCA)作为非监督学习算法在数据降维中的应用,解释了其概念、目的,以及在机器学习中的重要性,包括减少噪声、提高可视化效果和分类精度。还概述了PCA的算法流程和核方法在处理高维数据中的优势。
摘要由CSDN通过智能技术生成

主成分分析法是一个非监督学习的机器学习算法,主要用于数据的降维,对于高维数据,通过降维,可以发现更便于人类理解的特征。

一、特征维度约减的概念

维度约减是一种无监督学习,它的实质是去除冗余特征。

特征约减的目的是将高维特征向量映射到低维子空间中。

二、为什么要维度约减

(1) 大多数机器学习算法在高维空间中表现不够鲁棒;
(2)有价值的维度往往很少。
维度约减: 高效的存储与检索。
可视化: 高位数据在 2D 或 3D空间中的可视化 。
噪声消除: 提升分类或识别精度。
维度约减应用于文本挖掘、人脸识别、手写体识别、图像检索、基因分类......

三、常规维度约减方法

(1)无监督方法
– Latent Semantic Indexing (LSI): truncated SVD
– Independent Component Analysis (ICA)
– Principal Component Analysis (PCA)
– Canonical Correlation Analysis (CCA)
(2)监督方法
– Linear Discriminant Analysis (LDA)
(3)半监督方法
– Research topic

四、Principal Component Analysis (PCA)

主成分分析 (PCA) 基本思路
(1)通过协方差分析,建立高维空间到低维空间的线性映射/矩阵 ;
(2)保留尽可能多的样本信息 ;
(3)压缩后的数据对分类、聚类尽量不产生影响,甚至有所提升。
将原始高维向量通过投影矩阵,投射到低维空间 ,这些向量称为主成分 (PCs), 具有无关性、正交的特点。重要的是这些向量的数量要远小于高维空间的维度。
主成分分析的算法流程:数据集 { x i }
(1)计算数据集 { x i } 的均值;
(2)计算协方差矩阵;
(3)计算 S 的特征向量;
(4)根据特定准则(如压缩到 d维,或保留特定能量比例)选择 d个特征向量, 并组成变换矩阵。
PCA 求解算法II :SVD分解: 直接针对数据矩阵 X 进行奇异值分解。
  U的列向量:定义为主向量 { u(1), …, u(k) } ;正交--> UTU = I ;可以通过矩阵乘法重构原始数据。
矩阵 S:对角矩阵;对角线上的值,表示相应向量的重要程度。
VT 行向量:可以重构原始数据。
 

五、PCA的核方法

核方法是一种在机器学习领域广泛使用的非参数统计学习方法。它可以用于分类、回归、聚类等任务,并被广泛应用于计算机视觉、自然语言处理、生物信息学等领域。

核方法的核心思想是通过映射将输入空间中的数据点转换到一个特征空间中,从而使得在特征空间中的数据点能够更容易地被处理和分析。而这种映射通常是通过核函数来实现的。

使用核函数的目的:用以构造复杂的非线性分类器。

核函数本身并不会显式地定义高维特征空间,而是通过核技巧来实现数据从低维空间到高维特征空间的映射。这种方法可以大大降低计算复杂度,同时可以处理非线性问题,因为它可以将原始数据映射到一个非线性特征空间中,从而使得在特征空间中的数据点更容易被线性分类器或回归器处理。(原文链接:https://blog.csdn.net/fengzhuqiaoqiu/article/details/129483461)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值