学习《python machine learning》chapter5——Compressing data via dimensionality reduction
主要内容如下:
(1)主要成分分析 Principal Component Analysis (PCA) ——非监督学习
(2)线性判别分析 Linear Discriminant Analysis (LDA) ——监督学习
(3)核主成分分析 Kernel Principal Component Analysis ——非线性降维
源码 git 地址:https://github.com/xuman-Amy/compressing-data
【PCA】
主要思想:在高维数据集中找到变化最大的方向,并把它投射到一个同等维度或者更低维度的子空间上。
主要方法:创建一个维的转换矩阵
,通过转换矩阵将样本向量 x 从 原本的d 维特征子空间转换到 k 维特征子空间。
()。
通过转换矩阵后,新特征是旧特征的线性组合,新特征线性无关,最终的新特征子集相互正交。
主要步骤:
(1) 标准化d维数据集(Standardize)
(2)创建协方差矩阵(covariance matrix)
(3)将协方差矩阵分解为特征向量和特征值(eigenvectors and eigenvalues)
(4)通过降序排列特征值从而实现对相应的特征向量进行排序。
(5)选择K个特征向量,这K个特征向量对应K个最大的特征值。(K即特征新子集的维度)
(6)选择top K个特征向量创建投影矩阵W
(7)通过投影矩阵W对d维输入数据集进行转换,得到k维特征子空间。
【通过python逐步进行PCA】
【准备