假设
(x1,y1),(x2,y2),...,(xn,yn)
是总体的n个观测值,一元线性回归的hypothesis函数:
hθ(x)=θ0+θ1x
观测值标示为估计值加误差的形式:
yi=θ0+θ1xi+ei
误差的平方和:
Q=∑i=1n(yi−θ0−θ1xi)2
最小二乘法是通过最小化Q来求 θ0,θ1
求解方法1 偏导为0,Q取最小值:
求Q对于
θ0,θ1
的偏导:
∂Q∂θ1=−2∑i=1n(yi−θ0−θ1xi)xi
∂Q∂θ0=−2∑i=1n(yi−θ0−θ1xi)
偏导为0,Q取最小值得到:
θ1=n∑xiyi−∑xi∑yin∑x2i−(∑xi)2
θ0=∑x2i∑yi−∑xi∑xiyin∑x2i−(∑xi)2
求解方法2 直观图形:
首先把所以的点都标准化
xi′=xi−μxσx
yi′=yi−μyσy
最佳直线为
y′=rx′
r=∑(xi−x¯)(yi−y¯)nσxσy 为 xi 与 yi 的相关系数,即
y−μyσy=rx−μxσx
θ1=rσyσx
θ0=μy−rμxσyσx
把r代入得到
θ1=n∑xiyi−∑xi∑yin∑x2i−(∑xi)2
θ0=∑x2i∑yi−∑xi∑xiyin∑x2i−(∑xi)2
求解方法3 梯度下降:
start with some θ0 , θ1
repeat until convergence{
θ0=θ0−a∂Q∂θ0
θ1=θ1−a∂Q∂θ1
}
a是步长,learning rate
hopefully we have the minimum of Q
第一种偏导为零是直接法,第三种梯度下降是迭代法,都是求误差平方和的方法。 θ0 , θ1 的初始值,步长都影响梯度下降的结果。