机器学习:数学加强(三):矩阵与线性代数

矩阵

线性代数式的用途:SVD分解

  • 有一个m×n的实数矩阵A,我们想要把它分解成如下的形式A_{m\times n}=U_{m\times m}\Sigma_{m\times n} V^{\tau}_{n\times n}  
  • 其中UV均为单位正交阵,即有UU^{\tau } = IVV^{\tau} = IU称为左奇异矩阵V称为右奇异矩阵
  • \Sigma仅在主对角线上有值,我们称它为奇异值,其它元素均为0

\Sigma = \left[ \begin{matrix} \sigma_1 & 0 & 0 & 0 & 0\\ 0 & \sigma_2 & 0 & 0 & 0\\ 0 & 0 & \ddots & 0 & 0\\ 0 & 0 & 0 & \ddots & 0\\ \end{matrix} \right]_{m\times n}

  • 通常奇异值由大到小排列
  • 例子:

A = \left[ \begin{matrix} 1 & 0 & 0 & 0 & 2\\ 0 & 0 & 3 & 0 & 0\\ 0 & 0 & 0 & 0 & 0\\ 0 & 4 & 0 & 0 & 0\\ \end{matrix} \right]_{4\times 5}

U = \left[ \begin{matrix} 0 & 0 & 1 & 0\\ 0 & 1 & 0 & 0\\ 0 & 0 & 0 & -1\\ 1 & 0 & 0 & 0 \end{matrix} \right]_{4\times 4} V = \left[ \begin{matrix} 4 & 0 & 0 & 0 & 0 \\ 0 & 3 & 0 & 0 & 0\\ 0 & 0 & \sqrt{5} & 0 & 0\\ 0 & 0 & 0 & 0 & 0\end{matrix} \right]_{4\times 5} V^{\tau } = \left[ \begin{matrix} 0 & 1 & 0 & 0 & 0\\ 0 &0 & 1 & 0 & 0\\ \sqrt{0.2} & 0 & 0 & 0& \sqrt{0.8}\\ 0 & 0 & 0 & 1 & 0 \\ -\sqrt{0.8} & 0&0&0&\sqrt{0.2} \end{matrix} \right]_{5\times 5}

公式分解

\large A_{m\times n} =U_{m\times m}\Sigma_{m\times n} V^{\tau}_{n\times n} \\ =\left ( u_{1},u_{2},...,u_{m} \right )\left( \begin{matrix} \sigma_1 & 0 & 0 & 0 & 0\\ 0 & \sigma_2 & 0 & 0 & 0\\ 0 & 0 & \ddots & 0 & 0\\ 0 & 0 & 0 & \ddots & 0\\ \end{matrix} \right)_{m\times n} \left(\begin{matrix} u_1 \\ u_2 \\ \vdots\\ u_n \end{matrix} \right)|\\=u_1\sigma_1v_1+u_2\sigma_2v_2+...+u_s\sigma_sv_s

由于\sigma是逐渐变小的,那么则前几项的作用力比较大,截取前k项可能就能表示出全部的特征。

k值越大、图片越清晰

从上面的图片的压缩结果中可以看出来,奇异值可以被看作成一个矩阵的代表值,或者说,奇异值能够代表这个矩阵的信息。当奇异值越大时,它代表的信息越多。因此,我们取前面若干个最大的奇异值,就可以基本上还原出数据本身。

注:奇异值分解在数据降维中有较多的应用,但对于图片的降维不是它最重要的作用。机器学习很大部分是在做特征清洗和特征选择,奇异值SVD算法也只是一种特征选择的手段,隐马尔科夫,随机森林,都可以做特征选择……

 

范德蒙行列式:

 

状态转移矩阵

  • 随机过程

  • 用矩阵来表达随机过程,假设按照经济状况将人群分成上、中、下三个阶层,用1,2,3表示。假定当前处于某阶层只和上一代有关。即考察父代为第i阶层,则子代为第j阶层的概率为

  • 写成转移矩阵为

                          子代

 父代      P = \left[ \begin{matrix} 0.65 & 0.28 & 0.07\\ 0.15 & 0.67 & 0.18\\ 0.12 & 0.36 & 0.52\end{matrix} \right]_{3\times 3}

  • 第n+1代处于第j个阶层的概率为

\pi(X _{n-1} = j)=\sum_{i=1}^{K} \pi(X_n=i)P(X_{n+1}=j|X_n = i)

\Rightarrow \pi^{n+1}=\pi^{(n)}P

因此,矩阵P即为概率转移矩阵,第i行元素表示:在上一个状态为i时的分布概率,每一行和为1。

选取不同的初值使用转移矩阵进行迭代

发现选取的两个不同初值最后都稳定在了[0.286,0.489,0.225],那么就引出了平稳分布

  • 初始概率不同,但经过若干次迭代,\pi做种稳定收敛在某个分布上
  • 从而,这是转移概率矩阵P的性质,而非初始分布的性质。实际上,上述矩阵P的n次幂,每行都是[0.286,0.489,0.225],n>20
  • 如果一个非周期马尔科夫随机过程具有转移概率矩阵P,且它的任意两个状态都是连通的,则\lim_{n\rightarrow \infty }P^{n}_{ij}存在,记做\lim_{n\rightarrow \infty }P^{n}_{ij}=\pi(j)

若某概率分布\pi P=\pi说明

  • 该多项分布\pi是状态转移矩阵P的平稳分布
  • 该线性方程\pi P=\pi的非负解为\pi,而P^n唯一,因此\pi是线性方程\pi P=\pi的唯一非负解
  • 该问题将在马尔科夫模型中继续讨论

 

矩阵和向量的乘法:

  • 矩阵与向量乘法是一个向量空间向另一个向量空间的映射

A = \left [ \begin{matrix} 1&-1 \\ 1&1 \\1&2\end{matrix}\right ]     x = \left [ \begin{matrix} x_1 \\ x_2 \end{matrix}\right ]     y = \left [ \begin{matrix} y_1 \\ y_2 \\y_3\end{matrix}\right ]

Ax=y 为\mathbb{R}^2\Rightarrow \mathbb{R}^3

  • 矩阵与向量乘法也可以是向量空间内的线性变换

A = \left [ \begin{matrix} 1&-1 \\ 1&1 \end{matrix}\right ]     x = \left [ \begin{matrix} x_1 \\ x_2 \end{matrix}\right ]     y = \left [ \begin{matrix} y_1 \\ y_2 \end{matrix}\right ]

Ax=y 为\mathbb{R}^2\Rightarrow \mathbb{R}^2


旋转

\left [ \begin{matrix} x_2\\ y_2\end{matrix}\right ] = \left [ \begin{matrix} \cos\Theta &-\sin\Theta \\ \sin\Theta &\cos\Theta \end{matrix}\right ]\left [ \begin{matrix} x_1\\ y_1\end{matrix}\right ]

 

矩阵的乘法tips

根据定义计算C = A\times B,需要m*n*s次乘法

  • 若A、B都是n阶方阵,C的计算时间复杂度为O(n^3)
  • 三个矩阵A、B、C的阶分别是a_0\times a_1,a_1\times a_2,a_2\times a_3从而(AxB)xC和Ax(BxC)的乘法次数是a_0a_1a_2+a_0a_2a_3a_1a_2a_3+a_0a_1a_3二者的乘法次数是不相等的

矩阵的秩与线性方程组的关系:

\begin{matrix} a_{11}x_1+a_{12}x_2+...+a_{1n}x_n =b_1\\a_{21}x_1+a_{22}x_2+...+a_{2n}x_n =b_2\\...\\a_{m1}x_1+a_{m2}x_2+...+a_{mn}x_n =b_m\end{matrix}

对于n元线性方程组Ax=b,

  • 无解的充要条件是R(A)<R(A,b)
  • 有唯一解的虫咬条件是R(A)=R(A,b)=n
  • 有无限多解的充要条件是R(A)=R(A,B)<n

推论:

  • Ax=0有非零解的充要条件是R(A)<n
  • Ax=b有解的充要条件是R(A)=R(A,b)

向量组等价

  • 向量b能由向量组A:a1,a2……am线性表示的充要条件是矩阵A=(a1,a2……am)的秩等于B=(b1,b2……bn)的秩
  • 若有两个向量组A:a1,a2……am以及B:b1,b2……bn若B组向量都能由向量A线性表示,且A组向量都能由B组向量线性表示,则称两个向量组等价
  • 向量组B:b1,b2……bn能由向量组A:a1,a2……am线性表示的充要条件是R(A) = R(A,B)

系数矩阵

向量组B:b1,b2……bn能由向量组A:a1,a2……am线性表示,即对每一个bj,存在不全为0的k_{ij},k_{2j},...,k_{mj},使得

b_j = k_{1j}a_1+k_{2j}a_2+...+k_{mj}a_m=(\begin{matrix} a_1 &a_2& ... &a_m\end{matrix})\left(\begin{matrix} k_{1j} \\k_{2j}\\ ... \\k_{mj}\end{matrix}\right)

从而可以写出系数矩阵K

(\begin{matrix} b_1 &b_2& ... &b_m\end{matrix}) =(\begin{matrix} a_1 &a_2& ... &a_m\end{matrix})\left(\begin{matrix} k_{11} &k_{12}& ...&k_{1n}\\k_{21} &k_{22}& ...&k_{2n}\\ ... \\k_{m1} &k_{m2}& ...&k_{mn}\end{matrix}\right)

由此可知,若C=AxB,则矩阵C的列向量能由A的列向量线性表示,B即为系数矩阵

同理,若C=AxB,则矩阵C的列向量能由B的行向量线性表示,A即为系数矩阵

特征值

设n阶矩阵A=(a_{ij})的特征值是\lambda_1,\lambda_2,...,\lambda_n

  • \lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn} (称为迹)
  • \lambda_1\lambda_2...\lambda_n=|A|
  • \lambda_1,\lambda_2,...,\lambda_n是方阵A的m个特征值,p_1,p_2,...,p_n是依次与之对应的特征向量,若\lambda_1,\lambda_2,...,\lambda_n各不相等,则p_1,p_2,...,p_n线性无关

 

正交阵

若n阶矩阵A满足A^TA=I,称A为正交阵

充要条件:A的列(行)向量都是单位向量,且两两正交

正交变换:

当A为正交阵,x为向量,则Ax称作正交变换。注:正交变换不改变向量长度

A和B都是正交阵,那么AB也是正交阵

 

实对称阵

实对称阵的特征值是实数

实对称阵不同特征值对应的特征向量正交,证明如下图

A为n阶对称阵,则必有正交阵P使得P^{-1}AP=P^{T}AP=\Lambda

  • \Lambda是以A的n个特征值为对角元的对角阵
  • 该变换称为“合同变换”A\Lambda互为合同矩阵
  • 在谱聚类、PCA会涉及到

正定阵

对于n阶方阵A,若对任意n阶向量x,x^TAx>0,则称A是正定阵

  • 若条件变成x^TAx\geqslant 0,则称A是半正定阵
  • 若条件变成x^TAx< 0,则称A是负定阵
  • 若条件变成x^TAx\leqslant 0,则称A是半负定阵

注:A^TA一定是半正定矩阵,在线性回归中将用到

判断条件:对称阵为正定阵、A的特征值都为正、A的顺序主子式大于0

 

数据白化

 

QR分解

对于mxn的列满秩矩阵A,必有A_{mxn} = Q_{mxn}R_{nxn}

其中Q是正交阵,即Q^TQ=I,R为非奇异上三角矩阵,当要求R的对角元素为正时,该分解唯一

QR分解用于求解矩阵A的特征值、A的逆等问题

 

LFM

矩阵求导

向量对向量的求导

标量对向量的求导

标量对矩阵的求导

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值