矩阵向量求导微分三_机器学习

参考文档

    https://www.cnblogs.com/pinard/p/10791506.html

 

目錄

  1.     矩陣微分
  2.     微分性質
  3.     迹函数性质
  4.     矩阵向量求导应用例子
  5.     迹函数对向量矩阵求导

 


一  矩陣微分

   1.1  微分公式   df = f'(x)dx

   1.2  多變量微分:

     df = \sum_{i=1}^{n} \frac{\partial f}{\partial x_i} dx_i

         =(\frac{\partial f }{\partial x})^Tdx

    1.3 矩阵微分:

           df =\sum_{j=1}^{n}\sum_{i=1}^{m} \frac{ \partial f }{\partial X_{ij}}dX_{ij}

              =tr((\frac{\partial f}{\partial X})^TdX)

            其中 1.3 利用了矩阵迹性质

   

    tr(A^TB)=\sum_{ij}A_{ij}B_{ij}

   证明:

     C=A^TB=\begin{bmatrix} A_{11}& A_{21} & ... & A_{m1} \\ A_{12}& A_{22} & ... &A_{m2} \\ ...& ... & ... &... \\ A_{1n}& A_{2n} & ... & A_{mn} \end{bmatrix} \begin{bmatrix} B_{11}& B_{12} & ... & A_{1n} \\ B_{21}& B_{22} & ... &B_{2n} \\ ...& ... & ... &... \\ B_{m1}& B_{m2} & ... & B_{mn} \end{bmatrix}

     

     该矩阵的对角线元素为

   \begin{bmatrix} C_{11} & & & \\ & C_{22} & & \\ & & ...& \\ & & & C_{nn} \end{bmatrix}

     其中

   C_{11}=\sum_{j=1}^{m}A_{j1}B_{j1}

 C_{22}=\sum_{j=1}^{m}A_{j2}B_{j2}

....

C_{nn}=\sum_{j=m}A_{jn}B_{jn}

  tr(C)= \sum_{j=1}A_{j1}B_{j1}+ \sum_{j=1}A_{j2}B_{j2}+...+ \sum_{j=1}A_{jn}B_{jn}

           =\sum_{i}\sum_j A_{ij}B_{ij}

            =\sum_{ij}A_{ij}B_{ij}

 

二 微分性质

     微分共有八个性质

     2.1 加减法性质

            d(X+Y)= dX+dY, d(X-Y)=dX-dY

      2.2 乘法性质

            d(XY)=(dX)Y+X(dY)

      2.3  转置性质

           d(X^T)=(dX)^T

          证明

     令:     

X=\begin{bmatrix} x_{11} & x_{12} & ... & x_{1n}\\ x_{21} & x_{22} & ... & x_{2n}\\ ...& ...& ..& ...\\ x_{m1}& x_{m2} & ... & x_{m2} \end{bmatrix}

    

    d(X)=\begin{bmatrix} dx_{11} & dx_{12} & ... & dx_{1n}\\ dx_{21} & dx_{22} & ... & dx_{2n}\\ ...& ...& ..& ...\\ dx_{m1}&dx_{m2} & ... & dx_{mn} \end{bmatrix}

则:

d(X)^T=\begin{bmatrix} dx_{11} & dx_{12} & ... & dx_{1n}\\ dx_{21} & dx_{22} & ... & dx_{2n}\\ ...& ...& ..& ...\\ dx_{m1}&dx_{m2} & ... & dx_{mn} \end{bmatrix}^T

 X^T=\begin{bmatrix} x_{11} & x_{12} & ... & x_{1n}\\ x_{21} & x_{22} & ... & x_{2n}\\ ...& ...& ..& ...\\ x_{m1}& x_{m2} & ... & x_{m2} \end{bmatrix}^T

d(X^T)=\begin{bmatrix} dx_{11} & dx_{12} & ... & dx_{1n}\\ dx_{21} & dx_{22} & ... & dx_{2n}\\ ...& ...& ..& ...\\ dx_{m1}&dx_{m2} & ... & dx_{mn} \end{bmatrix}^T

 

  所以等式成立

 

  2.4 微分迹

          d tr(X)= tr(dX)

 

         证明

         tr(X)= \sum_{i}X_{ii}

        dtr(x)=\sum_i d(X_{ii})

        d(X)=\begin{bmatrix} dx_{11} & dx_{12} & ... & dx_{1n}\\ dx_{21} & dx_{22} & ... & dx_{2n}\\ ...& ...& ..& ...\\ dx_{n1}&dx_{n2} & ... & dx_{nn} \end{bmatrix}

      tr(dX)=\sum_i d(X_{ii})

      所以相等

     

     

    .2.5 微分哈达马乘积

          d(X \odot Y) =X \odot dY+ dX \odot Y

      2.6  逐元素求导

             d \varrho (X) =\varrho^{'}(X) \odot dX

      2.7  求逆

           dX^{-}=-X^{-1}dX(X^{-1})

          证明:

          因为XX^{-1}=E

         利用性质1,性质2

         dX(X^{-1})+XdX^{-1}=0

          XdX^{-1}= -dX(X^{-1})

         X^{-1}XdX^{-1}= -X^{-1}dX(X^{-1})

         dX^{-1}=-X^{-1}dX (X^{-1})

   2.8 行列式

        d|X|= |X| tr(X^{-1}dX)

       证明

            X(t)=\begin{bmatrix} x_{11}(t) & x_{12}(t) & ... & x_{1n}(t) \\ x_{21}(t) & x_{22}(t)& ...&... \\ ...& ... & ... &... \\ x_{n1}(t)& x_{n2}(t)& .... & x_{nn}(t) \end{bmatrix}

 

              |X(x_{ij}+\varepsilon )|-|X|=\varepsilon A_{ij}( 根据行列式展开原理)

            A_{ij} 为矩阵X的代数余子式

             所以 行列式的偏导数 为  代数余子式X_{ij}

            \frac{d|X|}{dt}=\sum_{i}\sum_{j}A_{ij}dX

                    =|X|\sum_{ij} \frac{A_{ij}}{|X|}dX

                      =|X| tr(X^{-1}dX)

    主要用到线性代数 伴随矩阵的基本概念以及性质:

                     

    

        矩阵的性质

     

           

     

                       

             也可参考https://spaces.ac.cn/archives/2383


         

三 迹性质

            3.1  标量的迹   tr(x)=x

            3.2 tr(A^T)= tr(A)

            3.3 tr(AB)=tr(BA)A,B^T 同维度

                    证明

                    tr(AB)=\sum_{ij}A_{ij}B_{ji}=tr(BA)

            3.4 tr(X+Y)=tr(X)+tr(Y)

            3.5 tr((A\odot B )^T C)= tr(A^T(B \odot C))

                   证明

                  tr((A\odot B )^T C)= tr(A^T(B \odot C))=\sum_{ij}A_{ij}B_{ij}C_{ij}

四 矩阵向量求导应用例子

        4.1  y=a^TXb  

           求证:     \frac{\partial y}{\partial X}=ab^T

          证明

              dy=a^TdX b

             dy= tr(dy)=tr(a^TdX b)  性质3.1

             = tr(ba^TdX)   性质3.3

             根据     dy  =tr((\frac{\partial f}{\partial X})^TdX)

                (\frac{\partial f}{\partial X})^T= ba^T

             所以导数为

               \frac{\partial f}{\partial X}= ab^T

    

      4.2  y=a^Te^{Xb}

            求证  \frac{\partial y}{\partial X}=(a \ \odot e^{Xb})b^T

            证明

             dy=tr(dy)  3.1

                   = tr(a^Tde^{Xb})

                   =tr(a^T(e^{Xb}\odot dXb))  ....性质2.6

                  =tr((a\odot e^{Xb})^TdX b)  性质3.5

                 =tr(b(a\odot e^{Xb})^TdX )   性质3.3

                 (\frac{\partial y}{\partial X})^T=b(a \ \odot e^{Xb})^T

                  所以

               \frac{\partial y}{\partial X}=(a \ \odot e^{Xb})b^T

       

  五 迹函数对矩阵求导             

           5.1 \frac{\partial tr(AB)}{\partial A}=B^T

                证明

                  \frac{\partial tr(AB)}{\partial A}= \frac{\partial \sum_{ij} A_{ij}B_{ji}}{\partial A_{ij}}

                                 =B^T

             5.2  \frac{\partial tr(W^TAW)}{\partial W}=(A+A^T)W

               证明

                d tr(W^TAW)=tr(d(W^TAW))  微分性质2.4

                =tr((dW^T)AW)+tr(W^TAdW)  微分性质2.2,2.1

               =tr((dW)^TAW)+tr(W^TAdW)  微分性质2.3

             =tr(W^TA^T dW)+ tr(W^TAdW)   性质3.2

           =tr(W^T(A+A^T)dW)

              

       所以

       \frac{\partial tr(W^TAW)}{\partial W}=(A+A^T)W

                    

                

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值