- Feature Extraction(属性提炼)
- 进行了边缘检测的图片
- 一般方法
- 差分:临近的不同像素点做差值,差值很大就可能在边缘变化的地方
- 一般方法
- 主成分分析——PCA(Principal Component Analysis)
- 特点:是一种无监督学习方法
- 原因:从不同角度观察问题,信息损失不同
- 二维例子
- 特殊情况
- 解释
- 数据呈高斯分布(正态分布)——一个椭圆
- 椭圆长轴:Major axis;短轴:Minor axis
- Variance(变化幅度):沿着某一属性的variance越大,说明这个属性更重要,更可能将各数据区分开。
- 根据Variance,应选择区分样本程度更好的X1属性,将数据向X1投影
- 解释
- 一般情况
- 解释
- 此时X1,X2有一定的correlation(关联)。即(covariance matrix)协方差矩阵中除了diagal(对角线以外),其他的地方可能不为0,有covariance(协方差)的存在
- 方法
- 平移、旋转坐标轴定义为y1、y2
- 去中心:把数据的中心点去掉。使得数据中心和坐标原点重合
- 此时去掉了y1和y2之间的线性correlation
- S(X)和S(Y)分别是在坐标变换前后的covariance (matrix) 表达式
- 解释
- 通过两种方法找出如何做变换
- Some Math
- 目标
- 使得在Y坐标轴下面计算出来的covariance,只有对角线上是非0的,其他的都是0,即没有correlation(对角矩阵表示各个变量之间的相关性为0)
- 解释
- Y就是X矩阵做了一个坐标变换,P是一个n维旋转矩阵
- S(Y):Y坐标轴下的Covariance(协方差矩阵?)。1/(n-1)只是一个大小缩放
- Q是一个正交矩阵
- X X^T = QDQ^T:矩阵的特征值分解(eigendecomposition特征分解,谱分解)
- D是包含特征值的对角阵,如果PQ=I(单位矩阵)就好了。又因为Q是正交矩阵,所以当PQ=I时P即为Q的转置
- 【补充】
- 特征分解【矩阵论】特征分解 - 知乎
- n阶方阵A可对角化的充分必要条件是A有n个线性无关的特征向量.
- 正交矩阵的转置矩阵和逆矩阵相等
- 目标
- A different view(另一种学术化的角度重新推导一遍)
- 解释
- 想把n维空间中很多的点投影到一根线上(降维思想)
- 认为原样本点和其投影之间的距离越小,差距越小,原信息保持的越好,即“这条线”找得越好
- e^t·xk:表示从xk投影到e,这段距离叫做阿尔法k。
- 方向用e来表示,因为只关心方向,不关心大小所以令||e||=1
- 目标
- 使得找到一个e,令J(e)函数最小化
- 化简后需要使S这个散点矩阵最大,限制条件为||e||=1。此时把问题转化为了优化问题
- 【补充】
- “向量的内积
- 当两个向量都是单位向量时,表示两个向量之间的夹角的余弦
- 当一个是单位向量时,表示另外一个向量在这个单位向量方向上的投影长度
- “向量的内积
- 拉格朗日乘数法(优化方法:带条件的约束问题)
- 解释
- Se = 岚不打e:是矩阵的特征值、特征向量分解问题
- 右下角小例子:矩阵x向量 = 向量,说明[1,1]本身是矩阵的一个特征向量,它的特征值是3
- 最后问题转化为选择最大的岚不打,即最大的特征值,即选择相应的特征向量,而特征向量就是e
- 补充
- (对称)矩阵求导
- 解释
- 解释
- Some Math
- 特殊情况
- PCA examples(强大的MATLAB)
- 应用
- 同一种鱼,correlation好(椭圆细长),信息丢失少
- 不同种鱼,correlation不好(椭圆高胖),信息丢失多
- 应用
- 进行了边缘检测的图片
2.6主成分分析(降维)
于 2023-11-24 12:10:46 首次发布