向量求导规则--最小二乘法求解最优解

1. 向量求导规则

此部分主要是对Matrix Differentiation的转载。

2.1. 导数定义(一阶导数)

y⃗ =ϕ(x⃗ ) ,其中 y⃗  x⃗  均为向量。
定义
definition
特别地,如果 y 是标量,则有yx⃗  1×n 的行向量;如果 x 是标量,则有y⃗ x m×1 的列向量。

2.2. 导数规则

  1. y⃗ =Ax⃗  ,其中 A x⃗  y⃗  无关,则有 y⃗ x⃗ =A
    证明: yi=jaijxjyixj=aij
  2. y⃗ =Ax⃗  ,其中 A x⃗ ,z⃗  y⃗  无关,则有 y⃗ z⃗ =Ax⃗ z⃗ 
    证明: yi=jaijxjyizk=jaijx⃗ jz⃗ k
  3. α=y⃗ TAx⃗  ,其中 A x⃗  y⃗  无关,则有 αx⃗ =y⃗ TA ,而 αy⃗ =x⃗ TAT
    证明: α=(y⃗ TA)x⃗ =Ax⃗ αx⃗ =A=y⃗ TA
    同理, αT=(x⃗ TAT)y⃗ =A′′y⃗ αy⃗ =A′′=x⃗ TAT
  4. α=x⃗ TAx⃗  ,其中 A x⃗ 无关,则有 αx⃗ =x⃗ T(AT+A)
    证明: α=ijaijxixjαxi=jaijxj+jajixjx⃗ TA+x⃗ TAT=x⃗ T(AT+A)
  5. α=y⃗ Tx⃗  ,则有 αz⃗ =y⃗ Tx⃗ z⃗ +x⃗ Ty⃗ z⃗ 
    证明: α=ixiyiαzj=i(xiyizj+yixizj)
  6. α=x⃗ Tx⃗  ,则有 αz⃗ =2xTx⃗ z⃗ 

之后的就不一一列举了,基本就是chain rule的应用,例如 α=y⃗ TAx⃗ αz⃗ =αx⃗ x⃗ y⃗ +αy⃗ y⃗ z⃗ =y⃗ TAx⃗ z⃗ +x⃗ TATy⃗ z⃗ 

2. 一个应用例子:最小二乘法的最优解

Least Square是二分类问题的经典分类器。
具体地,输入 X ,输出Y,其中 Y{0,1} ,预测输出 y^=β0+ixiβi 。对于 y^0.5 预测输出1,若 y^<0.5 预测输出0。
不同的参数 β 对应于不同的超平面,如何评价最佳的分类超平面取决于不同的分类器。
Least Square寻找最小化残差平方和最小的超平面。定义 RSS(Y,X;β)=i(y^iyi)2=i(xiβyi)2=(YXβ)T(YXβ) ,最优分类超平面为 argminβ(YXβ)T(YXβ)
首先对 β 求导, RSSβ=2(YXβ)T(YXβ)β=2(YXβ)T(YβXββ)=2(YXβ)T(X) 。令导数为零,有 β^=(XTX)1XTY

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值