mysql数据降维_数据分析--降维--LDA和PCA

一、因子分析

因子分析是将具有错综复杂关系的变量(或样本)综合为少数几个因子,以再现原始变量和因子之间的相互关系,探讨多个能够直接测量,并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配,并且在条件许可时借此尝试对变量进行分类。

因子分析的基本思想

根据变量间相关性的大小把变量分组,使得同组内的变量之间的相关性(共性)较高,并用一个公共因子来代表这个组的变量,而不同组的变量相关性较低(个性)。

因子分析的目的¶

因子分析的目的,通俗来讲就是简化变量维数。即要使因素结构简单化,希望以最少的共同因素(公共因子),能对总变异量作最大的解释,因而抽取得因子越少越好,但抽取的因子的累积解释的变异量越大越好。

主要内容:

(1):主成分分析 PCA

(2):线性判别分析  LDA

二、主成分分析 PCA

1、PCA

英语全称:Principal Component Analysis

用途:降维中最常用的一种手段

目标:提取最有价值的信息(基于方差)

问题:降维后的数据的意义?

2、向量的表示及基变换

内积:

01c033d0411c0d34b2823dbea4ea2b80.png

解释:

d40678665c74a59e61d3bdda7a361093.png

设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度

990853e0fcaf6149d0fa5b8a4a015099.png

向量可以表示为(3,2)实际上表示线性组合:

4e9d644c542debecc6bded3cccf36a56.png

基:(1,0)和(0,1)叫做二维空间中的一组基

9eafc9fb0ae09f1c810165db539f14fd.png

基变换

基是正交的(即内积为0,或直观说相互垂直)

要求:线性无关

3cfa3ce98f9d51640af5b745828ba2fd.png

变换:  数据与一个基做内积运算,结果作为第一个新的坐标分量,然后与第二个基做内积运算,结果作为第二个新坐标的分量

数据(3,2)映射到基中坐标:

f2564d2abe8be0a4dfba6b0fb501ca96.png

eb7ad469eeac296fe048e0dfb45c2759.png

两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去

协方差矩阵

方向:如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?

一种直观的看法是:希望投影后的投影值尽可能分散

方差 :

e51de47c90c86c4e03f075ccf9228864.png

寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大

协方差(假设均值为0时):

ed015d817a953c92330fdc54227153ce.png

协方差

如果单纯只选择方差最大的方向,后续方向应该会和方差最大的方向接近重合。

解决方案:为了让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的

协方差:可以用两个字段的协方差表示其相关性:

2a59b3c5314cd16eaf94a8bd6663a14e.png

当协方差为0时,表示两个字段完全独立。为了让协方差为0,选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

优化目标

将一组N维向量降为K维(K大于0,小于N),目标是选择K个单位正交基,使原始数据变换到这组基上后,各字段两两间协方差为0,字段的方差则尽可能大

协方差矩阵:

3d974100b4275d2ab307aafc2d1fef37.png  

df868528ce0e9c84ceb9f3adbaa41832.png

矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。

协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列

协方差矩阵对角化:

8457df1ad17ce6327e36b582adb8315e.png

实对称矩阵:一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量

fd7ec2ab0260d4281ba8b6870792e461.png

实对称阵可进行对角化:

c1be7f7d151a157773ca320e61049f97.png

根据特征值的从大到小,将特征向量从上到下排列,则用前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y

PCA实例

076e523986e848981c025b5c34b76979.png

三、主成分分析 LDA

1、LDA

全称为:Linear Discriminant Analysis

用途:数据预处理中的降维,分类任务

历史:Ronald A. Fisher在1936年提出了线性判别方法

目标:LDA关心的是能够最大化类间区分度的坐标轴成分

将特征空间(数据集中的多维样本)投影到一个维度更小的 k 维子空间中,同时保持区分类别的信息

原理:投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法

348d05052e1538d8d7afecdf293ce209.png     

a8b697b10c64903e7ac9c024ad28563a.png

监督性:LDA是“有监督”的,它计算的是另一类特定的方向

投影:找到更合适分类的空间

d2d044074bb7589392a7b129a2edb5e2.png

与PCA不同,更关心分类而不是方差

2、数学原理

9a7f0f1be3ebcd27c39a6ad4b790494e.png

目标: 找到该投影

LDA分类的一个目标是使得不同类别之间的距离越远越好,同一类别之中的距离越近越好

每类样例的均值:

6c88df032bcb522decc88a8a113b0ea5.png

投影后的均值:

ef07fe67a5c2388733cb83d68b9ac68d.png

投影后的两类样本中心点尽量分离:

7a3f21ff60a0aeef23a0868bc664e6bf.png

对于下图:

624d3c51c358a2482ac3a40508bc5364.png

只最大化J(w)就可以了?

X1的方向可以最大化J(w),但是却分的不好

散列值:样本点的密集程度,值越大,越分散,反之,越集中

同类之间应该越密集些:

10b6a885da4c09d5c1199cd9a74c0060.png

30296b1705d5d63d43411ea63ae29ee5.png

5309d0583f5b973483434c617314cc86.png

分母进行归一化:如果分子、分母是都可以取任意值的,那就会使得有无穷解,我们将分母限制为长度为1

拉格朗日乘子法:

e632fe1de8773cb7d8ec679da8133204.png

两边都乘以Sw的逆:

933f510ca103ef6dc9c965f6d3c082ff.png

可见,w就是矩阵

b260361847c9ec6209390a54591d689b.png的特征向量了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值