数据降维(三)PCA主成分分析

PCA(主成分分析)是一种常用的数据降维方法,旨在最小化重建误差并最大化方差。通过找到数据点投影方差最大的方向作为主成分,PCA能够捕获数据的主要变化。在目标函数中,PCA寻求最大化XXT的迹,对应于数据的方差。算法通常包括数据中心化、计算XXT的特征值和特征向量,以及选择最大特征值对应的特征向量作为主成分。PCA适用于原始维度不大的情况,当维度很高时,可以使用SVD进行计算。PCA的优点在于其简单直接,但可能忽略高阶统计信息且局限于线性变换。
摘要由CSDN通过智能技术生成

PCA主成分分析

目标函数1:最小化重建误差

重建误差是指将低维表示重新转化为高维表示时与原来的高维表示的误差.

最小化重建误差可用最小化所有样本的平方重建误差之和来替代.

  • 假定 ∣ ∣ w i ∣ ∣ = 1 , w i T w j = 0 ( i ≠ j ) ||w_i||=1,w_i^Tw_j = 0(i\neq j) wi=1,wiTwj=0(i̸=j)为新坐标
  • w w w用在两个函数上:
    • 编码: z i = W T x i , z i j = w j T x i z_i = W^Tx_i,z_{ij} = w_j^Tx_i zi=WTxi,zij=wjTxi
    • 解码: x ~ i = W z i = ∑ j = 1 d ′ z i j w j \tilde{x}_i = Wz_i = \sum_{j=1}^{d'}z_{ij}w_j x~i=Wzi=j=1dzijwj
  • 目标:最小平方重建误差和 m i n W ∈ R d × d ′ ∑ i = 1 m ∣ ∣ x i − W z i ∣ ∣ 2 min_{W\in R^{d\times d'}}\sum_{i=1}^m||x_i - Wz_i||^2 minWRd×di=1mxiWzi2

重建误差: ∣ ∣ x − x ~ ∣ ∣ ||x-\tilde{x}|| xx~

当低维恰好是高维在低维向量 w i w_i wi上的投影时,重构误差最小.

推导
∑ i = 1 m ∣ ∣ x i − W z i ∣ ∣ 2 = ∑ i = 1 m ∣ ∣ x i − ∑ j = 1 d ′ z i j w j ∣ ∣ 2 = ∑ i = 1 m z i T z i − 2 ∑ j = 1 m z i T W T x i + c o n s t ∝ − t r ( W T ( ∑ i = 1 m x i x i T ) W ) = − t r ( W T X X T W )

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值