矩阵的迹
假设矩阵A是一个n*n的方阵,则
trA=∑iAii
- trAB=trBA
- trABC=trCAB=trBCA
- ∇AtrAB=BT
- trA=trAT
- ∇AtrABATC=CAB+CTABT
利用矩阵的迹的结论,来推导normal equation
先介绍下什么是normal equation:假设一个数据集X有m个样本,n个特征,
(x(i),y(i))
是一对输入输出数据对,假设函数为:
hθ(x(i))=x(i)0θ0+x(i)1θ1+...+x(i)nθn
其中上标i表示第i个样本, x(i)0=1 。最小化目标函数:
J(θ)=12∑i=1m(hθ(x(i))−y(i))2
写成矩阵相乘的形式:
J(θ)=12(Xθ−Y)T(Xθ−Y)
其中
minJ(θ)
,可以通过求解梯度为零来得到
∇θJ(θ)=∇θ12(Xθ−Y)T(Xθ−Y)=∇θ12(θTXTXθ−YTXθ−θTXTY+YTY)=12∇θtr(θTXTXθ−YTXθ−θTXTY+YTY)=12∇θtr(θTXTXθ)−12∇θtr(YTXθ)−12∇θtr(θTXTY)=12∇θtr(θθTXTX)−∇θtr(YTXθ)=12(XTXθI+XTXθIT)−XTY=XTXθ−XTY
取 ∇θJ(θ)=0 ,得到
XTXθ−XTY=0
故推得normal equation:
θ=(XTX)−1XTY