《神经网络》第二章:线性代数 笔记

1 向量索引表示

有向量 x = [ x 1 x 2 ⋮ x n ] x=\begin{bmatrix}x_1 \\x_2 \\ \vdots \\ x_n\end{bmatrix} x=x1x2xn,有集合 S = { 1 , 3 , 6 } S=\{1,3,6\} S={1,3,6},那么

  • x S x_S xS,表示索引 x x x向量中的1,3,6元素
  • x − S x_{-S} xS,表示除1,3,6以外的元素
  • x − 1 x_{-1} x1,表示除第一个元素以外的元素
2 矩阵索引表示

有矩阵 A m × n A_{m\times n} Am×n

  • A i , : A_{i,:} Ai,:,表示第i行的所有元素
  • A : , i A_{:,i} A:,i,表示第i列的所有元素
  • f ( A ) i , j f(A)_{i,j} f(A)i,j,表示函数 f f f作用于第i行第j列的元素
3 矩阵和标量的运算
  • 矩阵相加

C = A + B C i , j = A i , j + B i , j \begin{aligned} C&=A+B\\ C_{i,j} & = A_{i,j} + B_{i,j} \end{aligned} CCi,j=A+B=Ai,j+Bi,j

  • 标量和矩阵相乘及相加
    D = a ⋅ B + c D i j = a ⋅ B i , j + c \begin{aligned} D &= a\cdot B + c \\ D_{ij} & = a\cdot B_{i,j} + c \end{aligned} DDij=aB+c=aBi,j+c
  • 矩阵和向量相加
    C = A + b C i , j = A i , j + b j \begin{aligned} C &= A + b \\ C_{i,j} &= A_{i,j} + b_j \end{aligned} CCi,j=A+b=Ai,j+bj
    向量和矩阵的每一行相加。隐式的复制向量b到很多位置的方式,称为广播
  • Hadamard乘积/元素对应乘积( A ⨀ B A\bigodot B AB)

C = A ⨀ B C i , j = A i , j ⋅ B i , j \begin{aligned} C &= A\bigodot B \\ C_{i,j} & = A_{i,j} \cdot B_{i,j} \end{aligned} CCi,j=AB=Ai,jBi,j

3 线性组合

A x = ∑ i x i A : , i \begin{aligned} Ax = \sum _i x_i A_{:,i} \end{aligned} Ax=ixiA:,i

4 解方程组

A x = b Ax=b Ax=b

把A的列向量想象成从原点出发的不同方向,确定有多少方法可以到达b点。是否有解,相当于确定b是否在A的列向量张成的空间中。

5 奇异矩阵

列向量线性相关的方阵

6 范数

norm,把向量映射到非负值的函数
∥ x ∥ p = ( ∑ i ∣ x i ∣ p ) 1 p \parallel x \parallel_p = \Big( \sum_i |x_i|^p\Big)^{\frac{1}{p}} xp=(ixip)p1

  • L2范数:在原点附近增长很缓慢,不好区分零元素和非零元素
  • L1范数:当零元素和非零元素之间茶语非常重要的时候通常会使用L1范数。
  • Frobenius范数:衡量矩阵的大小
    ∥ A ∥ F = ∑ i , j A i , j 2 \parallel A\parallel _F = \sqrt{\sum_{i,j} A^2_{i,j}} AF=i,jAi,j2
7 标准正交

x T y = 0 , ∥ x ∥ 2 = 1 , ∥ y ∥ 2 = 1 x^Ty=0,\parallel x\parallel_2=1,\parallel y\parallel_2=1 xTy=0,x2=1,y2=1
则x,y是标准正交

8 正交矩阵

行向量和裂像狼分别是标准正交的方阵
A T A = A A T = I A^TA = AA^T=I ATA=AAT=I
A − 1 = A T A^{-1}=A^T A1=AT

9 特征值,特征向量
  • 右特征值,特征向量
    A v = λ v Av = \lambda v Av=λv

  • 特征分解
    设A有n个线性无关的特征向量 { v 1 , ⋯   , v n } \{v_1,\cdots,v_n\} {v1,,vn},对应的特征值 { λ 1 , ⋯   , λ n } \{\lambda_1,\cdots,\lambda_n\} {λ1,,λn};用特征向量构成一个矩阵 V = [ v 1 , ⋯   , v n ] V = \begin{bmatrix}v_1,\cdots,v_n \end{bmatrix} V=[v1,,vn],特征值连成一个向量 λ = [ λ 1 , ⋯   , λ n ] T \lambda=\begin{bmatrix}\lambda_1,\cdots,\lambda_n\end{bmatrix}^T λ=[λ1,,λn]T,那么
    A = V d i a g ( λ ) V − 1 A=Vdiag(\lambda)V^{-1} A=Vdiag(λ)V1

  • 每个实对称矩阵都可以分解成实特征向量和实特征值

10 正定
  • 正定矩阵(positive definite):所有特征值都是正数
  • 半正定矩阵(psitive semidefinite):所有特征都是非负数的矩阵
  • 负定矩阵:所有的特征值都是负数的矩阵
  • 半负矩阵:所有的特征是都是非正数的矩阵。

如果是半正定矩阵,能保证 x T A x ≥ 0 x^TAx \geq0 xTAx0.
如果是正定矩阵,能保证 x T A x = 0 = > x = 0 x^TAx =0 => x=0 xTAx=0=>x=0

11 奇异值分解

singular value decomposition,SVD
可以将矩阵分解为奇异向量(singular vector)和奇异值(singular value)

A = U D V T A = UDV^T A=UDVT
其中A矩阵维度是 m × n m\times n m×n;U是正交矩阵,维度是 m × m m\times m m×m;V是正交矩阵,维度是 n × n n\times n n×n。D是对角矩阵,维度是 m × n m\times n m×n
A A T = U D D T U T A T A = V D D T V T \begin{aligned} AA^T &= UDD^TU^T \\ A^TA &= VDD^TV^T \end{aligned} AATATA=UDDTUT=VDDTVT

U = [ u 1 , u 2 , ⋯   , u m ] U=\begin{bmatrix}u_1,u_2,\cdots,u_m \end{bmatrix} U=[u1,u2,,um] V = [ v 1 , v 2 , ⋯   , v n ] V=\begin{bmatrix}v_1,v_2,\cdots,v_n \end{bmatrix} V=[v1,v2,,vn], D = [ λ 1 1 2 0 ⋯ 0 λ 2 1 2 ⋯ 0 ⋯ λ n 1 2 ⋯ 0 ⋯ ] m × n D=\begin{bmatrix}\lambda_1^{\frac{1}{2}}&0&\cdots\\ 0&\lambda_2^{\frac{1}{2}}&\cdots\\ 0&\cdots&\lambda_n^{\frac{1}{2}} \\\cdots &0&\cdots\end{bmatrix}_{m\times n} D=λ121000λ2210λn21m×n
那么
A = λ 1 1 2 u 1 v 1 T + λ 2 1 2 u 2 v 2 T + ⋯ + λ n 1 2 u n v n T A = \lambda_1^{\frac{1}{2}}u_1v_1^T + \lambda_2^{\frac{1}{2}}u_2v_2^T +\cdots + \lambda_n^{\frac{1}{2}}u_nv_n^T A=λ121u1v1T+λ221u2v2T++λn21unvnT

12 伪逆,Moore-Penrosse

A x = y Ax=y Ax=y

  • 逆矩阵
    当A矩阵的维度 n × n n\times n n×n且A可逆时
    x = A − 1 y x = A^{-1}y x=A1y
  • 伪逆矩阵

定义
A + = lim ⁡ α − > 0 ( A T A + α I ) A T A^+ = \lim_{\alpha ->0} (A^TA + \alpha I)A^T A+=α>0lim(ATA+αI)AT
为A的伪逆矩阵。

如果A矩阵维度 m × n , m ≠ n m\times n,m\quad \neq n m×n,m̸=n。使 A x Ax Ax y y y尽可能相等
J = min ⁡ ∥ A x − y ∥ 2 J = \min \parallel Ax-y\parallel^2 J=minAxy2
求导
∂ J ∂ x = ( A T A x − A T y ) = 0 \frac{\partial J}{\partial x} = (A^TAx-A^Ty)=0 xJ=(ATAxATy)=0

A T A x = A T y A^TAx = A^Ty ATAx=ATy
A T A A^TA ATA n × n n\times n n×n维对称矩阵。

  1. 推导1
  • m > n m >n m>n A T A A^TA ATA一般可逆,此时 x = ( A T A ) − 1 A T y x = (A^TA)^{-1}A^Ty x=(ATA)1ATy
  • m &lt; n m &lt;n m<n R ( A T A ) &lt; R ( A ) &lt; n R(A^TA) &lt; R(A) &lt; n R(ATA)<R(A)<n,矩阵 A T A A^TA ATA不可逆.

    J = ∥ A x − y ∥ 2 + λ ∥ x ∥ 2 ∂ J ∂ x = A T A x − A T y + λ x = 0 ( A T A + λ I ) x = A T y x = ( A T A + λ I ) − 1 A T y \begin{aligned} J &amp;= \parallel Ax-y\parallel^2 + \lambda\parallel x \parallel ^2 \\ \frac{\partial J}{\partial x} &amp;= A^TAx-A^Ty + \lambda x = 0\\ &amp;(A^TA + \lambda I)x = A^Ty\\ x&amp;= (A^TA + \lambda I)^{-1}A^Ty \end{aligned} JxJx=Axy2+λx2=ATAxATy+λx=0(ATA+λI)x=ATy=(ATA+λI)1ATy
  1. 推导2
    A T A A^TA ATA是对称矩阵,可对角化
    A T A = p − 1 d i a g ( [ λ 1 , ⋯ &ThinSpace; , λ n ] ] ) p ∣ A T A ∣ = λ 1 ∗ ⋯ ∗ λ n \begin{aligned} A^TA &amp;= p^{-1}diag(\begin{bmatrix} \lambda_1,\cdots,\lambda_n\end{bmatrix}])p\\ |A^TA|&amp;=\lambda_1*\cdots*\lambda_n \\ \end{aligned} ATAATA=p1diag([λ1,,λn]])p=λ1λn
  • x T ( A T A ) x = ( A x ) T ( A x ) ≥ 0 → λ i ≥ 0 x^T(A^TA)x = (Ax)^T(Ax) \geq 0 \rightarrow \lambda_i \geq 0 xT(ATA)x=(Ax)T(Ax)0λi0,此时 ∣ A T A ∣ |A^TA| ATA仍然可能为0,不一定可逆
  • x T ( A T A + λ I ) x = ( A x ) T ( A x ) + λ x T x &gt; 0 → λ i &gt; 0 x^T(A^TA+\lambda I)x=(Ax)^T(Ax) + \lambda x^Tx &gt;0 \rightarrow \lambda_i &gt;0 xT(ATA+λI)x=(Ax)T(Ax)+λxTx>0λi>0,此时 ∣ A T A + λ I ∣ &gt; 0 |A^TA+\lambda I|&gt;0 ATA+λI>0恒成立,一定可逆
13 PCA

两种理解方式

  • 投影后方差最大(已中心化)
    max ⁡ 1 m ∑ ( x T w ) 2 s . t . w T w = 1 \begin{aligned} \max &amp;\quad \frac{1}{m} \sum (x^Tw)^2 \\ s.t. &amp;\quad w^Tw=1 \end{aligned} maxs.t.m1(xTw)2wTw=1
  • 最小方差(投影后点和原点距离最小)
    min ⁡ ∑ [ x − ( x T w ) w ] 2 \min \sum[x - (x^Tw)w]^2 min[x(xTw)w]2
    J = ∑ [ x − ( x T w ) w ] 2 = ∑ [ x − ( x T w ) w ] T [ x − ( x T w ) w ] = ∑ [ x T x − x T ( x T w ) w − ( x T w ) w T x + ( x T w ) ( x T w ) w T w ] = ∑ [ x T x − ( x T w ) 2 − ( x T w ) 2 + ( x T w ) 2 ] = ∑ ( x T x − ( x T w ) 2 ) J = m i n ∑ − ( x T w ) 2 \begin{aligned} J&amp;= \sum[x - (x^Tw)w]^2\\ &amp;= \sum[x - (x^Tw)w]^T[x - (x^Tw)w]\\ &amp;= \sum[x^Tx - x^T(x^Tw)w - (x^Tw)w^Tx + (x^Tw)(x^Tw)w^Tw] \\ &amp; = \sum[x^Tx - (x^Tw)^2 - (x^Tw)^2 + (x^Tw)^2] \\&amp;= \sum(x^Tx - (x^Tw)^2)\\ J &amp;= min \sum -(x^Tw)^2 \end{aligned} JJ=[x(xTw)w]2=[x(xTw)w]T[x(xTw)w]=[xTxxT(xTw)w(xTw)wTx+(xTw)(xTw)wTw]=[xTx(xTw)2(xTw)2+(xTw)2]=(xTx(xTw)2)=min(xTw)2
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值