1. 向量求导规则
此部分主要是对Matrix Differentiation的转载。
2.1. 导数定义(一阶导数)
设
y⃗ =ϕ(x⃗ )
,其中
y⃗
和
x⃗
均为向量。
定义
特别地,如果
y
是标量,则有
2.2. 导数规则
-
y⃗ =Ax⃗
,其中
A
与
x⃗ 和 y⃗ 无关,则有 ∂y⃗ ∂x⃗ =A
证明: yi=∑jaijxj⇒∂yi∂xj=aij -
y⃗ =Ax⃗
,其中
A
与
x⃗ ,z⃗ 和 y⃗ 无关,则有 ∂y⃗ ∂z⃗ =A∂x⃗ ∂z⃗
证明: yi=∑jaijxj⇒∂yi∂zk=∑jaij∂x⃗ j∂z⃗ k -
α=y⃗ TAx⃗
,其中
A
与
x⃗ 和 y⃗ 无关,则有 ∂α∂x⃗ =y⃗ TA ,而 ∂α∂y⃗ =x⃗ TAT 。
证明: α=(y⃗ TA)x⃗ =A′x⃗ ⇒∂α∂x⃗ =A′=y⃗ TA
同理, αT=(x⃗ TAT)y⃗ =A′′y⃗ ⇒∂α∂y⃗ =A′′=x⃗ TAT -
α=x⃗ TAx⃗
,其中
A
与
x⃗ 无关,则有 ∂α∂x⃗ =x⃗ T(AT+A) 。
证明: α=∑i∑jaijxixj⇒∂αxi=∑jaijxj+∑jajixj⇒x⃗ TA+x⃗ TAT=x⃗ T(AT+A) -
α=y⃗ Tx⃗
,则有
∂α∂z⃗ =y⃗ T∂x⃗ ∂z⃗ +x⃗ T∂y⃗ ∂z⃗
。
证明: α=∑ixiyi⇒∂α∂zj=∑i(xi∂yi∂zj+yi∂xi∂zj) - α=x⃗ Tx⃗ ,则有 ∂α∂z⃗ =2xT∂x⃗ ∂z⃗
之后的就不一一列举了,基本就是chain rule的应用,例如 α=y⃗ TAx⃗ ⇒∂α∂z⃗ =∂α∂x⃗ ∂x⃗ ∂y⃗ +∂α∂y⃗ ∂y⃗ ∂z⃗ =y⃗ TA∂x⃗ ∂z⃗ +x⃗ TAT∂y⃗ ∂z⃗
2. 一个应用例子:最小二乘法的最优解
Least Square是二分类问题的经典分类器。
具体地,输入
X
,输出
不同的参数
β
对应于不同的超平面,如何评价最佳的分类超平面取决于不同的分类器。
Least Square寻找最小化残差平方和最小的超平面。定义
RSS(Y,X;β)=∑i(y^i−yi)2=∑i(xiβ−yi)2=(Y−Xβ)T(Y−Xβ)
,最优分类超平面为
argminβ(Y−Xβ)T(Y−Xβ)
。
首先对
β
求导,
∂RSS∂β=2(Y−Xβ)T∂(Y−Xβ)∂β=2(Y−Xβ)T(∂Y∂β−∂Xβ∂β)=2(Y−Xβ)T(−X)
。令导数为零,有
β^=(XTX)−1XTY
。