数据降维——主成分分析PCA

本文介绍了主成分分析PCA和线性判别分析LDA的基本概念,PCA旨在最大化数据在主轴上的投影方差,通过特征值分解或SVD实现,用于无监督降维;LDA则是有监督降维,目标是最大化类间距离并最小化类内距离,用于分类。PCA与LDA的主要区别在于是否利用标签信息以及优化目标的不同。
摘要由CSDN通过智能技术生成

一:预备知识
向量

向量的内积与投影:
在这里插入图片描述
两个向量A, B 内积的计算公式为: A ▪ B = ∣ A ∣ ∣ B ∣ c o s ( α ) A▪B=|A||B|cos(α) AB=ABcos(α)
1)向量内积的几何解释就是:向量A在向量B上的投影长度( ∣ A ∣ c o s ( α ) |A|cos(α) Acos(α))乘以向量B的模
特别的,如果一个向量如a是某个坐标轴的单位向量,那么两个向量的内积 a ▪ b a▪b ab就是向量在此坐标轴上的坐标值。
2)从内积的数值上我们可以看出两个向量在方向上的接近程度。当内积为正值时,两个向量大致指向相同的方向(方向夹角小于90度);当内积为负值时,两个向量大致指向相反的方向;当内积值为0时,两个向量互相垂直。
(这个后面用于协方差和相关性的说明)

基与基变换:
1、定义:设 F n 的 非 空 子 集 V 是 F 上 的 向 量 空 间 , 如 果 V 中 的 ( 有 序 ) 向 量 组 α 1 , α 2 , ⋯   , α m 线 性 表 示 满 足 F^{n}的非空子集V是F上的向量空间,如果V中的(有序)向量组\alpha _{1},\alpha _{2},\cdots,\alpha _{m}线性表示满足 FnVFV()α1,α2,,αm线
(1) α 1 , α 2 , ⋯   , α m 线 性 无 关 ; \alpha _{1},\alpha _{2},\cdots,\alpha _{m}线性无关; α1,α2,,αm线
(2) V 中 的 向 量 都 可 由 α 1 , α 2 , ⋯   , α m 线 性 表 示 , V中的向量都可由\alpha _{1},\alpha _{2},\cdots,\alpha _{m}线性表示, Vα1,α2,,αm线,

那 么 , 称 向 量 组 α 1 , α 2 , ⋯   , α m 是 V 的 一 个 基 . 那么,称向量组\alpha _{1},\alpha _{2},\cdots,\alpha _{m}是V的一个基. α1,α2,,αmV.

要准确的描述向量,首先要确定一组基(坐标轴,本质上也是一个向量),向量在各个坐标轴上的投影可以来定量的表示这个向量。

基变换的矩阵表示:

假设矩阵A的每一行代表一个向量空间的一个基,那么如果一个向量a在原来的向量空间其坐标值为 ( a 1 , a 2 , a 3 … … a n ) (a_1,a_2,a_3……a_n) (a1,a2,a3an),那么换算到新的向量空间后a的坐标值为:Aa 即:该向量a向矩阵A的每一行做投影。(此时暂时假设A的每一行都是单位向量)

可以看出基变换与矩阵内积是紧密相关的

注意上面的基变换操作变换前后向量a的维度是没有减少的,但是变换前后的向量空间的维度是不是可以不一致呢?(变换后的向量空间维度减少),这就是下面要讨论的数据降维问题。

方差与协方差:

首先在提到方差和协方差的时候,需要对其进一步区分:1)随机变量的方差和协方差 2)样本的方差和协方差
我们机器学习中一般都是指的样本的方差和协方差

样本均值: x ˉ = 1 n ∑ i = 1 N x i \bar{x}=\frac{1}{n}\displaystyle\sum_{i=1}^{N}x_i xˉ=n1i=1Nxi

样本方差: S 2 = 1 n − 1 ∑ i = 1 N ( x i − x ˉ ) 2 S^2=\frac{1}{n-1}\displaystyle\sum_{i=1}^{N}(x_i-\bar{x})^2 S2=n11i=1N(xi

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值