给定由
d
个属性描述的样本
f(x)=w1x1+w2x2+...+wdxd+b
一般用向量形式写成
f(x)=wTx+b
其中, w=(w1,w2,...,wd) , w和b 学得之后, 模型就得以确定.
给定数据集
D={(x1,y1),(x2,y2),...,(xm,ym)}
,
其中 xi=(xi1,xi2,...,xid),yi∈R , 线性回归(Linear Regression)试图学习一个线性模型去预测实值输出标记.
我们先考虑最简单的情形, 即
d=1
, 则
D={(xi,yi)mi=1},其中,xi∈R
. 线性回归试图习得
f(xi)=wxi+b,使得f(xi)≃yi
衡量 f(x) 与 y 的差别, 最常用的度量方法是均方误差。 我们可以试图让均方误差最小
基于最小均方误差来进行模型求解的方法称为最小二乘法。
令
E(w,b)=argmin∑i=1m(f(xi)−wxi−b)2
则
∂E(w,b)∂w=2(w∑i=1mx2i−∑i=1m(yi−b)xi)
∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi))
然后令上两式为零, 可得
w=∑mi=1yi(xi−avg(x))∑mi=1x2i−1m(∑mi=1xi)2
b=1m∑i=1m(yi−wxi)
推广到更一般的情况, 数据集
D
的样本由
X=⎛⎝⎜⎜⎜x11x21.xm1x12x22.xm2..........x1dx2d.xmd1111⎞⎠⎟⎟⎟
则
w∗=argmin(y−Xw)T(y−Xw)
令 Ew=(y−Xw)T(y−Xw)
对 w 求导可得
若 XTX 为满秩矩阵或正定矩阵, 令上式为零, 可得
w∗=(XTX)−1XTy
最终的回归模型为
f(xi)=xTi(XTX)−1XTy
Reference
- https://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)
- 机器学习 - 周志华 清华大学出版社