pca与ica学习与理解

本文是在学习后的理解,将数学和原理进行的总结。

2024年3月记录

反正是遇到要使用这个算法,然后我竟然忘了这个算法。因此回来复习一下,第一个问题就是阅读资料都访问不了了;第二个问题就是可能自己的数学语言理解发生了变化等问题,以前的记录竟然看不懂了。

因为去年看了微分几何这本书,所以重新用这本书的理论解释的话,感觉更简单。

比如2维空间中的一堆点,其有坐标xy。

假如xy线性相关,那么y=kx+b+e,其中e是噪声。一般pca会去中心化,所以b可以忽略。

所以线性相关时候会是一条直线。不相关那就是乱七八糟的点。

微分几何中是可以换基的,比如x和y坐标轴就是一个x和y方向单位长度是1的基。任意一个点,你可以换成角度和半径的描述,这也是一组基。

当然比如两条垂直的斜线也可以是一组基。那么比如我找一组基,其中一个方向和数据点所构成的直线的方向一致,那是不是二维数据我就可以压缩成一维了?

而pca经过对协方差矩阵的变换,变换成对角矩阵,其中namuda最大的意味着熵最大,当然其实我暂时还不认为他是最重要的。

所以你选这个熵最大的方向,然后只用这一个维度描述数据,可以达到丢失信息最小的目的。因此假如你数据压缩,那你选这个维度保留,其他的删除掉,那肯定丢失信息是最少的。

至于具体怎么求解,这都不会的话,那最好去看看线性代数吧!

1      2018年记录

pca阅读资料来自http://blog.jobbole.com/109015/

主成分分析(Principal Component Analysis,PCA)

最近复习了线性回归,在概率论书中讲解两个变量之间的关系,变量x和y是否有关系?当然书里设x是一个变量,y是一个随机变量,并且假设y是服从正太分布的。那么假设他们线性相关的话,他们的关系必然是y=ax+b。因此是一条直线,说明他们相关。但是由于y是一个随机变量,它有随机性,因此数据点应该是一个长条的形状。图的话就是阅读资料里的图。

现在想一下假如他们没关系的话他们的图会是什么样子?比如x和y都无关,他们都是0到1之间的均匀分布,因此是在一个标准圆内的均匀分布的点。

假如x和y都是变量而不是随机变量,他们是否相关的话,相关肯定就是成一条直线。当然也不能这么说,我觉得这里应该利用线性无关这一说法,或者用物理学里面的自由度。也就是说给我们3维的点,假如其中x和y线性相关,那么我只需要x和z就可以表示这些点,根本不需要y了。

接下来的问题是我们如何找到某一个方向是最优的,让所有向量投影到我这个方向上,得到的向量值是最大的。

那么我就首先假设这些点都是向量,然后有一个单位向量是r,r的方向c是最好的角度。求这个单位向量的做法是求最大值呗:

a1点乘r+a2点乘r+a3点乘r+。。。+an点乘r=T

什么是点乘?请阅读高等数学下空间解析几何那一章。

当然如果是向量的长度那肯定加一个范数(平方)。那么T就是一个最小二乘的公式了,当然这里我们不是求T的最小值,要求他的最大值,因此什么梯度下降或者牛顿都行,当然资料里用了矩阵论里的知识,反正就是求最大值了。

基本上算法的思想就是这样。

具体算法过程与思想2

一堆数据构成一个表,每一行是一个案例,每一列是某一属性。在有三个属性时是三维空间的一堆向量,找一个方向进行投影,投影后的得到的向量的长度即是一个新的维度。因此一个投影方向仅能得到一个维度。

根据https://blog.csdn.net/cxmscb/article/details/66473130

中的推导,假如原数据有3个属性,那么我们可以找到三个方向,利用这三个方向可以完全表达原数据而不丢失任何信息。这种方向也可以称为线性空间的一组基向量,有很多个。我们认为投影后方差最大的方向即是最好的,经过文中推倒得到一个公式来求最优方向,即是求期特征向量与特征值。3个属性会得到3个投影方向,投影后得到3个维度,我们要降维的话那就只采用里面重要程度比较大的几个。基本原理就是这样。

————————————————————————————————————————————————————

ica独立成分分析(independent component analysis)

相互独立和不相关:首先这两个概念理解时不要与自然语言里的独立和相关进行联系。他们的定义我参考浙江大学概率论与数理统计里的定义是:

协方差cov(X,Y)=0表示独立;相关系数deta=cov(X,Y)/(方差X乘以方差Y);deta=1表示线性相关,0表示不相关,0到1表示有点相关。

很自然若协方差是0那么deta肯定0,因此独立推出不相关。书中109页说明相关系数是表示线性相关程度的量。举出一个例子,X和Y的关系是二次平方关系,但是deta却等于0,说明它们不相关却独立。所以此相关不是咱们理解的不相关,而是线性相关。

给定m个不是高斯分布的随机变量si的线性组合x,欲求s。这个问题是一个无穷多解的问题,具体参考https://wenku.baidu.com/view/ad0973b94028915f804dc2aa.html

其实神经网络也是一个无穷多解的问题,但是我们找到一个最好的解,比如我这个解与所有待分类的点平均距离最大,因为如果想找到可以分类所有点的平面,那有无穷多个,而最好的只有一个。

因此解决这个问题的切入点就是,概率论中有一个李雅普诺夫定理,说无穷多个随机变量加到一起就是高斯分布,因此我让x变回s,并且变回去以后s是最不是高斯分布的。

这就转化为一个求极值的问题,找到一个矩阵乘以x然后得到的新矩阵让他最不是高斯分布。

而目标函数(代价函数)就是形容这个矩阵到底有多不是高斯分布,假如这个代价函数是T,然后以W为参数我们最大话T就可以得到最后的解。当然具体计算需要把以上概念转化成数学公式,具体公式请看参考资料。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值