特征值
- 特征向量的代数上含义是:将矩阵乘法转换为数乘操作;
- 特征向量的几何含义是:特征向量通过方阵A变换只进行伸缩,而保持特征向量的方向不变。
特征值表示的是这个特征到底有多重要,类似于权重,而特征向量在几何上就是一个点,从原点到该点的方向表示向量的方向。
一个变换方阵的所有特征向量组成了这个变换矩阵的一组基。所谓基,可以理解为坐标系的轴。
我们平常用到的大多是直角坐标系,在线性代数中可以把这个坐标系扭曲、拉伸、旋转,称为基变换。
我们可以按需求去设定基,但是基的轴之间必须是线性无关的,也就是保证坐标系的不同轴不要指向同一个方向或可以被别的轴组合而成,否则的话原来的空间就“撑”不起来了。
从线性空间的角度看,在一个定义了内积的线性空间里,对一个N阶对称方阵进行特征分解,就是产生了该空间的N个标准正交基,然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基,而特征值的模则代表矩阵在每个基上的投影长度。
特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。
特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么
在机器学习特征提取中,意思就是最大特征值对应的特征向量方向上包含最多的信息量,如果某几个特征值很小,说明这几个方向信息量很小,可以用来降维,也就是删除小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做以后数据量减小,但有用信息量变化不大,PCA降维就是基于这种思路。
奇异值
特征值及特征值分解都是针对方阵而言,现实世界中,我们看到的大部分矩阵不是方阵,比如每道数据有M个点,一共采集了N道数据,这样就形成了一个N*M的矩阵,那么怎样才能像方阵一样提取出它的特征,以及特征的重要性。
奇异值分解就是来干这个事情的。奇异值相当于方阵中的特征值,奇异值分解相当于方阵中的特征值分解。
奇异值分解(SVD)
奇异值分解是一种适用于任意矩阵的分解方法。
U 矩阵(左奇异矩阵)的列向量分别是u1,u2(
Σ是一个对角矩阵,对角元素分别是对应的σ1 和 σ2;
V矩阵(右奇异矩阵)的列向量分别是v1,v2(
V表示了原始域的标准正交基,U表示经过M 变换后的co-domain的标准正交基,Σ表示了V 中的向量与u中相对应向量之间的关系。
特征值和奇异值关系
特征值和奇异值既然各自描述了矩阵中特征(特征向量和奇异值向量)的重要性,那么必然存在一定的关系。
一般矩阵A,将A与其转置相乘
这里的得到的特征向量vi上面的右奇异向量,所有特征向量一起组成了右奇异矩阵。此外我们还可以得到奇异值和左奇异向量(矩阵)
奇异值σ跟特征值类似,在矩阵Σ中也是从大到小排列,而且σ的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。
也就是说,我们也可以用前r大的奇异值来近似描述矩阵,这里定义一下部分奇异值分解: