常用的矩阵范数和矩阵导数

1.常用的矩阵范数

矩阵的 l r , p l_{r,p} lr,p范数定义为:
在这里插入图片描述
F范数和 l 2 , 1 l_{2,1} l2,1范数可以转化为:
在这里插入图片描述
S S S l 2 , 1 l_{2,1} l2,1范数其实就是每一行向量的 l 2 l_2 l2范数之和。在最小化问题中,只有每一行的 l 2 l_2 l2范数最小才能使总和最小,而每一个行范数最小就要求行内尽可能多的元素为0,即行稀疏。所以,通过约束矩阵的 l 2 , 1 l_{2,1} l2,1范数会得到一个行稀疏的矩阵。

矩阵 S S S l 2 l_2 l2范数是所有元素的平方和再开方, l 2 l_2 l2范数可以防止过拟合,提升模型的泛化能力。 l 2 l_2 l2范数最小,会使矩阵中的每一个元素都很小,接近于0。与 l 1 l_1 l1范数不同, l 2 l_2 l2范数不会让元素等于0,而是接近0.

核范数为矩阵奇异值的和,用于约束低秩。因为 r a n k ( W ) rank(W) rank(W)是非凸的,故在优化中常使用其凸近似,也就是核范数。

2.标量函数对矩阵变量求导

定义:矩阵X,函数f(X)是以X为自变量的数量函数,定义f(X)对X的导数为
在这里插入图片描述
例如:
在这里插入图片描述
常用的矩阵导数有:

∂ t r ( Q T A Q ) ∂ Q = ( A + A T ) Q \frac{\partial tr(Q^{T}AQ)}{\partial Q}=(A+A^{T})Q Qtr(QTAQ)=(A+AT)Q

∂ t r ( Q A Q T ) ∂ Q = Q ( A + A T ) \frac{\partial tr(QAQ^{T})}{\partial Q}=Q(A+A^{T}) Qtr(QAQT)=Q(A+AT)

∂ t r ( A B ) ∂ A = ∂ t r ( B A ) ∂ A = B T \frac{\partial tr(AB)}{\partial A}=\frac{\partial tr(BA)}{\partial A}=B^{T} Atr(AB)=Atr(BA)=BT

∂ t r ( A A T ) ∂ A = 2 A \frac{\partial tr(AA^T)}{\partial A}=2A Atr(AAT)=2A , ∂ t r ( A 2 ) ∂ A = 2 A T \frac{\partial tr(A^2)}{\partial A}=2A^T Atr(A2)=2AT

∂ t r ( Q T A ) ∂ Q = ∂ t r ( A T Q ) ∂ Q = ∂ t r ( A Q T ) ∂ Q = A \frac{\partial tr(Q^{T}A)}{\partial Q}=\frac{\partial tr(A^{T}Q)}{\partial Q}=\frac{\partial tr(AQ^{T})}{\partial Q}=A Qtr(QTA)=Qtr(ATQ)=Qtr(AQT)=A

t r ( A B C ) = t r ( C A B ) = t r ( B C A ) tr(ABC)=tr(CAB)=tr(BCA) tr(ABC)=tr(CAB)=tr(BCA)
在这里插入图片描述

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值