主成分分析

最新推荐文章于 2021-06-17 10:53:43 发布

Louis_lan

最新推荐文章于 2021-06-17 10:53:43 发布

阅读量230

点赞数 1

分类专栏：日志文章标签：数据分析

本文链接：https://blog.csdn.net/liu14lang/article/details/84677929

版权

日志专栏收录该内容

22 篇文章 1 订阅

订阅专栏

背景

前提知识（线性代数、概率论）

特征值与特征向量
对称矩阵对角化、非负定矩阵
正交矩阵，矩阵的转置与逆
正交变换
协方差矩阵

引言

问题提出

在实际生活中，我们往往会用很多指标（又称属性、特征、因素）来尽可能的描述我们所要分析的对象，在数学上我们利用向量 $X=(x_1,x_2,...,x_n)$ 来表示拥有 $n$ 个特征的对象。假设我们要预测明天某只股票是跌还是涨，我们收集了这只股票一年内每一天的指标，比如当天开盘价、收盘价、前N天最高价、前N天最低价、前N天平均价、当天全国平均气温、当天全国人口出生数、当天全国人口死亡数等等一系列指标（为了说明问题，我这里举了一些影响不大的因素）。当然我们知道在这些指标中对研究对象的影响是不一样的，比如像平均气温、人口出生数与死亡数对股票涨跌影响弱，像开盘价与收盘价对股票涨跌影响强。所以我们能不能通过某种算法使得用更少的指标去描述股票涨跌这个现象,以便我们能够便利地进行数据处理？

问题解决

上文我们了解了每一个指标对股票涨跌的影响是不一样的，那我们能不能通过剔除掉那些对股票影响弱的指标来达到缩减指标的目的呢？答案是不能的，因为在我们收集指标时往往有些指标是比较“鸡肋”的：留下的话，感觉对股票涨跌影响不是很大，徒增数据处理压力；剔除掉，想想对股票的涨跌还是有一定的影响的。主成分分析正是很好的解决了这种问题，我们可以通过对这些指标一些线性组合 $y_i=a_{1i}x_1+a_{2i}x_2+...+a_{ni}x_n,其中i=1,2,...,m$ , $m\leq n$ 。最终我们就可以通过向量 $Y=(y_1,y_2,...,y_m)$ 这m个指标来描述股票涨跌这个现象，所以我们可知，主成分分析主要解决的问题就是求解组合后的指标 $y_i$ ,也就是求解 $a_{1i},a_{2i},...,a_{ni})这些组合系数,其中i=1,2,...,m$ 。

特征空间

在引言中我们知道股票涨跌现象可以用向量 $X=(x_1,x_2,...,x_n)$ 来描述，这也构成了我们研究对象的特征空间。比如，下图就是一个n=2的特征空间：
在这里插入图片描述
这时，由 $X_1$ 和 $X_2$ 的两个坐标轴构成了一个二维特征空间 $P_1$ 。图上的黑点代表我们收集的样本，通过特征 $X_1$ 和 $X_2$ 表达在此图上，所以样本可以由空间 $P_1$ 来描述。我们从图中可以看出 $X_1$ 和 $X_2$ 这两个特征对样本的描述影响程度差不多，貌似这两个特征缺一不可。

细心的同学已经发现了上图中还有 $F_1$ 和 $F_2$ 两个坐标轴，构成了另一个二维特征空间 $P_2$ ，所以样本也可以由空间 $P_2$ 描述。在空间 $P_2$ 上，样本的 $F_2$ 特征大多分布在一个比较小的范围内，有大量的样本的 $F_2$ 值是相同的，不能很好的表示样本，相反 $F_1$ 特征分布在一个比较大范围，大部分的y1值是不相等的，能够很好的表示样本。（这句话不好理解，可以这样想：如果只取 $F_2$ 特征来描述样本发现很多样本是一样的，对样本表示的信息少，不好体现样本之间的差异；相反只取 $F_1$ 特征来描述样本会发现大部分样本是不一样的，对样本表示的信息多，更好地体现样本之间的差异）。

恩~~~ 可以暂停思考一下。接下来我们取出所有样本的 $F_1$ 值形成一个数列，并对其计算方差 $D_1$ ,对 $F_2$ 值也进行如此操作计算出 $D_2$ .我们可以通过比较 $D_1$ 与 $D_2$ 的大小，来决定特征 $F_1$ 与 $F_2$ 对样本影响程度（表示的信息）的大小，因为方差就是表示一组数据的离散程度，所以计算方差是合理的。当样本的特征空间为 $n$ 时，我们也可以求出 $D=(D_1,D_2,...,D_n)$ ,对其进行排序，我们取出前 $m$ 大的方差对应的特征来描述样本，这也是我们的主成分分析的思想。现在问题在于特征 $Y=(y_1,y_2,...,y_n)$ 是如何求出来的。要是求出了 $Y$ ，问题也就迎刃而解了。

旋转变换

在求解 $Y$ 前，我们先来介绍下旋转变换。在图中，我们可以看出，空间 $P_2$ 是可以通过空间 $P_1$ 旋转变换得到的，并且这种坐标变换是正交变换的。变换公式如下：
$\begin{bmatrix}f_1\\f_2\\\end{bmatrix}=U' X+b=\begin{bmatrix}cos\theta&-sin\theta\\sin\theta&cos\theta\\\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\end{bmatrix}$
其中 $U'=\begin{bmatrix}cos\theta&sin\theta\\-sin\theta&cos\theta\\\end{bmatrix}$ 为旋转矩阵，并且是正交矩阵，即 $U U^{'} = I, I$ 称之为单位矩阵. $\begin{bmatrix}b_1\\2_2\\\end{bmatrix}$ 为位移矩阵。

主成分分析计算

变量假设

向量 $X=(x_1,x_2,...,x_n)$ ，其期望与协方差阵分别为 $\mu=E(X),\Sigma=D(X)$
线性变换： $y_i=a_{1i}x_1+a_{2i}x_2+...+a_{ni}x_n=A'_iX,i=1,2,...m$
矩阵变换： $Y=A'X，其中Y=(y_1,y_2,...,y_m)',A=(A_1,A_2,...,A_m)$

算法步骤

（1）求解向量 $X$ 的协方差 $\Sigma$ .
（2）求解 $\Sigma$ 的特征值 $\lambda=(\lambda_1,\lambda_2,...,\lambda_m),其中\lambda_1，\lambda_2,...,\lambda_m都是\Sigma$ 矩阵的特征值，并且是依大至小排序。
（3）求解 $\lambda_i$ 对应的单位化特征向量 $A_i$ .
（4）求解 $Y_i=A'_iX，其中i=1,2,...,m。Y_i$ 称为第 $i$ 主成分，其贡献率为 $\phi_k=\lambda_k/{\sum_{k=1}^m\lambda_k}$ ,贡献率表示每个主成分对样本的表示程度，一般前几个主成分贡献率之和可以达到70%以上，故往后的主成分可以忽略。

Louis_lan

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
主成分分析

背景前提知识（线性代数、概率论）特征值与特征向量对称矩阵对角化、非负定矩阵正交矩阵，矩阵的转置与逆正交变换协方差矩阵引言问题提出在实际生活中，我们往往会用很多指标（又称属性、特征、因素）来尽可能的描述我们所要分析的对象，在数学上我们利用向量X=(x1,x2,...,xn)X=(x_1,x_2,...,x_n)X=(x1,x2,...,xn)来表示拥有nnn个特征的对象。...
复制链接

扫一扫