一、基础知识(1)-范数、导数

0iq2333
于 2022-11-13 14:43:37 发布
阅读量1.1k
点赞数 1
分类专栏： # 最优化文章标签：线性代数算法
本文链接：https://blog.csdn.net/acm_durante/article/details/127810077
版权
最优化专栏收录该内容
3 篇文章 0 订阅
订阅专栏
                    
                    一、范数 
1.1 向量范数 
定义：满足正定、齐次、三角不等式，则称从向量空间到实数域的非负函数的范数
 
           l 
          
           p 
          
         l_p 
        
     lp​范数： 
      
          ∣ 
         
          ∣ 
         
          v 
         
          ∣ 
         
           ∣ 
          
           p 
          
          = 
         
          ( 
         
          ∣ 
         
           v 
          
           1 
          
           ∣ 
          
           p 
          
          + 
         
          ∣ 
         
           v 
          
           2 
          
           ∣ 
          
           p 
          
          + 
         
          . 
         
          . 
         
          . 
         
          + 
         
          ∣ 
         
           v 
          
           n 
          
           ∣ 
          
           p 
          
           ) 
          
            1 
           
            p 
           
         ||v||_p=(|v_1|^p+|v_2|^p+...+|v_n|^p)^{\frac{1}{p}} 
        
     ∣∣v∣∣p​=(∣v1​∣p+∣v2​∣p+...+∣vn​∣p)p1​
 
           l 
          
           ∞ 
          
          范 
         
          数 
         
         l_{\infty}范数 
        
     l∞​范数： 
      
          ∣ 
         
          ∣ 
         
          v 
         
          ∣ 
         
           ∣ 
          
           ∞ 
          
          = 
         
          m 
         
          a 
         
          x 
         
          ( 
         
          ∣ 
         
           v 
          
           i 
          
          ∣ 
         
          ) 
         
         ||v||_{\infty}=max(|v_i|) 
        
     ∣∣v∣∣∞​=max(∣vi​∣)
 
1.2 矩阵范数 
 
           l 
          
           2 
          
          范 
         
          数 
         
          , 
         
          F 
         
          范 
         
          数 
         
         l_2范数,F范数 
        
     l2​范数,F范数： 
      
          ∣ 
         
          ∣ 
         
          A 
         
          ∣ 
         
           ∣ 
          
           F 
          
          = 
         
            T 
           
            r 
           
            ( 
           
            A 
           
             A 
            
             T 
            
            ) 
           
          = 
         
            ∑ 
           
             a 
            
              i 
             
              j 
             
             2 
            
         ||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum{a_{ij}^2}} 
        
     ∣∣A∣∣F​=Tr(AAT) 
             
            ​=∑aij2​ 
             
            ​ 
  正交不变性： 
        
            ∣ 
           
            ∣ 
           
            U 
           
            A 
           
            V 
           
            ∣ 
           
             ∣ 
            
             F 
            
             2 
            
            = 
           
            T 
           
            r 
           
            ( 
           
            U 
           
            A 
           
            V 
           
             V 
            
             T 
            
             A 
            
             T 
            
             U 
            
             T 
            
            ) 
           
            = 
           
            T 
           
            r 
           
            ( 
           
            U 
           
            A 
           
             A 
            
             T 
            
             U 
            
             T 
            
            ) 
           
            = 
           
            T 
           
            r 
           
            ( 
           
            A 
           
             A 
            
             T 
            
             U 
            
             T 
            
            U 
           
            ) 
           
            = 
           
            T 
           
            r 
           
            ( 
           
            A 
           
             A 
            
             T 
            
            ) 
           
            = 
           
            ∣ 
           
            ∣ 
           
            A 
           
            ∣ 
           
             ∣ 
            
             F 
            
             2 
            
           ||UAV||_F^2=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T)=Tr(AA^TU^TU)=Tr(AA^T)=||A||_F^2 
          
       ∣∣UAV∣∣F2​=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2​。 
     
              U 
             
              ∈ 
             
               R 
              
                m 
               
                × 
               
                m 
               
              、 
             
              V 
             
              ∈ 
             
               R 
              
                n 
               
                × 
               
                n 
               
             U\in R^{m×m}、V\in R^{n×n} 
            
         U∈Rm×m、V∈Rn×n是正交矩阵
 
              T 
             
              r 
             
              ( 
             
              X 
             
              ) 
             
              = 
             
              ∑ 
             
               a 
              
                i 
               
                i 
               
             Tr(X)=\sum{a_{ii}} 
            
         Tr(X)=∑aii​，矩阵的迹，对角线的和。
 
核范数： 
      
          A 
         
          ∈ 
         
           R 
          
            m 
           
            × 
           
            n 
           
          , 
         
          ∣ 
         
          ∣ 
         
          A 
         
          ∣ 
         
           ∣ 
          
           ∗ 
          
          = 
         
           ∑ 
          
            i 
           
            = 
           
            1 
           
           r 
          
           σ 
          
           i 
          
         A\in R^{m×n},||A||_*=\sum_{i=1}^{r}{\sigma_i} 
        
     A∈Rm×n,∣∣A∣∣∗​=∑i=1r​σi​ 
   
             σ 
            
             i 
            
            为 
           
            A 
           
            的 
           
            所 
           
            有 
           
            非 
           
            零 
           
            奇 
           
            异 
           
            值 
           
            , 
           
            r 
           
            = 
           
            r 
           
            a 
           
            n 
           
            k 
           
            ( 
           
            A 
           
            ) 
           
           \sigma_i 为A的所有非零奇异值,r=rank(A) 
          
       σi​为A的所有非零奇异值,r=rank(A)
奇异值：设A为 
        
            m 
           
            ∗ 
           
            n 
           
           m*n 
          
       m∗n阶矩阵， 
        
            q 
           
            = 
           
            m 
           
            i 
           
            n 
           
            ( 
           
            m 
           
            , 
           
            n 
           
            ) 
           
           q=min(m,n) 
          
       q=min(m,n)， 
        
            A 
           
            ∗ 
           
            A 
           
           A*A 
          
       A∗A的q个非负特征值的算术平方根叫作A的奇异值。
 
1.3 矩阵内积 
Frobenius内积:常用来表示两个矩阵(张成的空间)之间的夹角
定义： 
      
          < 
         
          A 
         
          , 
         
          B 
         
          > 
         
            = 
           
            d 
           
            e 
           
            f 
           
          T 
         
          r 
         
          ( 
         
          A 
         
           B 
          
           T 
          
          ) 
         
          = 
         
          ∑ 
         
          ∑ 
         
            a 
           
             i 
            
             j 
            
            b 
           
             i 
            
             j 
            
         <A,B>\overset{def}{=}Tr(AB^T)=\sum\sum{a_{ij}b_{ij}} 
        
     <A,B>=defTr(ABT)=∑∑aij​bij​
 
二、导数 
2.1 梯度、海瑟矩阵 
梯度： 
      
            lim 
           
            ⁡ 
           
            p 
           
            → 
           
            0 
           
            f 
           
            ( 
           
            x 
           
            + 
           
            p 
           
            ) 
           
            − 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
            − 
           
             g 
            
             T 
            
            p 
           
            ∣ 
           
            ∣ 
           
            p 
           
            ∣ 
           
            ∣ 
           
          = 
         
          0 
         
         \underset{p\rightarrow 0}{\lim}\frac{f(x+p)-f(x)-g^Tp}{||p||}=0 
        
     p→0lim​∣∣p∣∣f(x+p)−f(x)−gTp​=0 
   
            ∣ 
           
            ∣ 
           
            ⋅ 
           
            ∣ 
           
            ∣ 
           
           ||·|| 
          
       ∣∣⋅∣∣是任意向量范数，g为 
        
            f 
           
           f 
          
       f在x点处的梯度
 
海瑟矩阵: 
      
          f 
         
          ( 
         
          x 
         
          ) 
         
          : 
         
           R 
          
           n 
          
          → 
         
          R 
         
         f(x):R^n\rightarrow R 
        
     f(x):Rn→R
  
  二阶可微： 
        
             ∇ 
            
             2 
            
            f 
           
            ( 
           
            x 
           
            ) 
           
           \nabla^2f(x) 
          
       ∇2f(x)在区域D上的每个点x都存在
二阶连续可微： 
        
             ∇ 
            
             2 
            
            f 
           
            ( 
           
            x 
           
            ) 
           
           \nabla^2f(x) 
          
       ∇2f(x)在D上还连续，可以证明此时海瑟矩阵还是对称矩阵。
 
雅克比矩阵 
      
          J 
         
          ( 
         
          x 
         
          ) 
         
         J(x) 
        
     J(x), 
      
          f 
         
          : 
         
           R 
          
           n 
          
          → 
         
           R 
          
           m 
          
         f:R^n\rightarrow R^m 
        
     f:Rn→Rm是向量值函数
 
梯度利普希茨连续： 
  可微函数 
        
            f 
           
           f 
          
       f，若存在 
        
            L 
           
            > 
           
            0 
           
           L>0 
          
       L>0，对任意 
        
            x 
           
            , 
           
            y 
           
            ∈ 
           
            d 
           
            o 
           
            m 
           
            f 
           
           x,y\in domf 
          
       x,y∈domf有 
        
            ∣ 
           
            ∣ 
           
            ∇ 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
            − 
           
            ∇ 
           
            f 
           
            ( 
           
            y 
           
            ) 
           
            ∣ 
           
            ∣ 
           
            ≤ 
           
            L 
           
            ∣ 
           
            ∣ 
           
            x 
           
            − 
           
            y 
           
            ∣ 
           
            ∣ 
           
           ||\nabla f(x)-\nabla f(y)||\leq L||x-y|| 
          
       ∣∣∇f(x)−∇f(y)∣∣≤L∣∣x−y∣∣,称 
        
            f 
           
           f 
          
       f是梯度利普希茨连续的， 
        
            L 
           
           L 
          
       L为相应的函数，称为 
        
            L 
           
            − 
           
            光 
           
            滑 
           
           L-光滑 
          
       L−光滑
二次上界： 
        
            f 
           
            ( 
           
            x 
           
            ) 
           
            可 
           
            微 
           
            ， 
           
            且 
           
            为 
           
            L 
           
            − 
           
            光 
           
            滑 
           
            ， 
           
            则 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
            有 
           
            二 
           
            次 
           
            上 
           
            界 
           
            ： 
           
            f 
           
            ( 
           
            y 
           
            ) 
           
            ≤ 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
            + 
           
            ∇ 
           
            f 
           
            ( 
           
            x 
           
             ) 
            
             T 
            
            ( 
           
            y 
           
            − 
           
            x 
           
            ) 
           
            + 
           
             L 
            
             2 
            
            ∣ 
           
            ∣ 
           
            y 
           
            − 
           
            x 
           
            ∣ 
           
             ∣ 
            
             2 
            
           f(x)可微，且为L-光滑，则f(x)有二次上界：f(y)\leq f(x)+\nabla f(x)^T(y-x)+\frac{L}{2}||y-x||^2 
          
       f(x)可微，且为L−光滑，则f(x)有二次上界：f(y)≤f(x)+∇f(x)T(y−x)+2L​∣∣y−x∣∣2
 
            f 
           
            ( 
           
            x 
           
            ) 
           
            可 
           
            微 
           
            , 
           
            存 
           
            在 
           
            全 
           
            局 
           
            极 
           
            小 
           
            点 
           
             x 
            
             ∗ 
            
            , 
           
            且 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
            为 
           
            L 
           
            − 
           
            利 
           
            普 
           
            希 
           
            茨 
           
            连 
           
            续 
           
           f(x)可微,存在全局极小点x^*,且f(x)为L-利普希茨连续 
          
       f(x)可微,存在全局极小点x∗,且f(x)为L−利普希茨连续则： 
        
             1 
            
              2 
             
              L 
             
            ∣ 
           
            ∣ 
           
            ∇ 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
            ∣ 
           
             ∣ 
            
             2 
            
            ≤ 
           
            f 
           
            ( 
           
            x 
           
            ) 
           
            − 
           
            f 
           
            ( 
           
             x 
            
             ∗ 
            
            ) 
           
           \frac{1}{2L}||\nabla f(x)||^2\leq f(x)-f(x^*) 
          
       2L1​∣∣∇f(x)∣∣2≤f(x)−f(x∗)
 
2.2矩阵变量的导数 
Gâteaux可微： 
      
            t 
           
            → 
           
            0 
           
            l 
           
            i 
           
            m 
           
            f 
           
            ( 
           
            X 
           
            + 
           
            t 
           
            V 
           
            ) 
           
            − 
           
            f 
           
            ( 
           
            X 
           
            ) 
           
            − 
           
            t 
           
            < 
           
            G 
           
            , 
           
            V 
           
            > 
           
           t 
          
          = 
         
          0 
         
         \overset{lim}{t\rightarrow0}\frac{f(X+tV)-f(X)-t<G,V>}{t}=0 
        
     t→0limtf(X+tV)−f(X)−t<G,V>​=0 
   
            G 
           
            , 
           
            V 
           
            ∈ 
           
             R 
            
              m 
             
              × 
             
              n 
             
           G,V\in R^{m×n} 
          
       G,V∈Rm×n
 
2.3自动微分 
链式法则