本文摘自邱锡鹏老师的《神经网络与深度学习》讲义
范数
矩阵的
p
范数为:
导数
p
维向量
∇xf(x)=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂f(x)∂x1⋮∂f(x)∂xp⎤⎦⎥⎥⎥⎥⎥⎥⎥∈Rp
对于一个 p 维向量
∇xf(x)=⎡⎣⎢⎢⎢⎢⎢⎢⎢∂f1(x)∂x1⋮∂f1(x)∂xp⋯⋮⋯∂fq(x)∂x1⋮∂fq(x)∂xp⎤⎦⎥⎥⎥⎥⎥⎥⎥∈Rp×q
常见向量导数
∂Ax∂x=AT
∂xTA∂x=A
导数法则
乘法法则:
y=f(x),z=g(x)
,则
∂yTz∂x=∂y∂xz+∂z∂xy
链式法则: z=f(y),y=g(X) , X 为矩阵,则:
常用函数
定义
x=[x1,⋯,xK]T,z=[z1,⋯,zK]T
,
z=f(x)
f(x) 是按位运算的,即 (f(x))i=f(xi) ;则 f(x) 的导数为
∂f(x)∂x=[∂f(xj)∂xi]K×K=⎡⎣⎢⎢⎢⎢⎢f′(x1)0⋮00f′(x2)⋮0⋯⋯⋮⋯00⋮f′(xK)⎤⎦⎥⎥⎥⎥⎥=diag(f′(x))
logistic函数
logistic函数常用于将实数空间映射到
(0,1)
区间
σ(x)=11+e−x
其导数为
σ′(x)=σ(x)(1−σ(x))
softmax函数
softmax函数将多个标量映射为一个概率分布。
对于
K
个标量
zk=softmax(xk)=exp(xk)∑Ki=1exp(xi)
。
这样就将 K 个变量
当softmax函数的输入为 K 维向量
z^=softmax(x)=exp(x)1−TKexp(x)
其中 1−K=[1,⋯,1]K×1 是 K 维全1向量。
其导数为