斯坦福公开课Machine Learning笔记(一)–Linear Regression

一.Linear Regression

• 训练集:S={(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}$S=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\}$
• 预测函数:
hθ(x)=θ0+θ1x

改写成向量:
hθ(x)=i=1nθTx

其中x中增加了一项常数项1
• Lost Function:
J(θ)=12i=1n(hθ(x(i))y(i))2

这里的代价函数使用的是最小二乘.(那为何是平方呢?后面会有解释)

1. Least mean squares algorithm

θj:=θjαθjJ(θ)

θjJ(θ)=θj12i=1m(hθ(x(i))y(i))2=(i=1mhθ(x(i))y(i))×θji=1m(hθ(x(i))y(i))=(hθ(x)y⃗ )xj

Repeat until convergence{
θj:=θjα(hθ(x)y)xj

}

Loop{
for i=1 to m{

θj:=θjα(hθ(x(i))y(i))x(i)j(for every j)

}
}

2.The normal equations

X=x(1)Tx(2)Tx(m)T
y=y(1)y(2)y(m)

xθy=x(1)Tθy(1)x(2)Tθy(2)x(m)Tθy(m)

zTz=iz2i$\because z^T z=\sum_i{z_i^2}$
J(θ)=12mi=1(hθ(x)(i)y(i))2=12(Xθy)T(Xθy)$\therefore J(\theta)=\frac{1}{2}\sum_{i=1}^m{(h_\theta(x)^{(i)}-y^{(i)})^2}=\frac{1}{2}(X \theta -y)^T(X\theta -y)$
θJ(θ)=θ12(xTθy)T(xTθy)=θ12(θTXTXθθTxyyTXθ+yTy)=12θtr(θTXTXθθTxyyTXθ+yTy)(,tr, tr)=12θ(tr(θTXTXθ)2tr(yTXθ))(trA=trAT,yTyθ)=12(XTXθ+XTXθ2XTy)(AT=θ,Atr(AB)=BT,B=BT=XTX,ATtrABATC=BTATC+BATC,Atf(A)=(Af(A))T)=XTXθXTy=0(0)

XTXθ=XTy$\therefore X^TX\theta=X^Ty$
θ=(XTX)1XTy$\therefore \theta=(X^TX)^{-1}X^Ty$

3.Probabilistic interpretation

y(i)=θTx(i)+ϵ(i)

P(ϵ(i))=12πσexp((ϵ(i))22σ2)$\therefore P(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})$
P(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)$\therefore P(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$
y(i)|x(i);θN(θx(i),σ2)$y^{(i)}|x^{(i)};\theta服从N(\theta x^{(i)},\sigma^2)$

:$\therefore 似然函数:$

L(θ)=i=1mP(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

:$\therefore 对数似然函数:$
l(θ)=logL(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=i=1mlog(12πσexp((y(i)θTx(i))22σ2))=mlog12πσ1σ212i=1m(y(i)θTx(i))2

4.Locally weighted linear regression

1. minθiw(i)(y(i)θTx(i))2$\min_\theta{\sum_i{w^{(i)}(y^{(i)}-\theta^Tx^{(i)})^2}}$
2. output:θTx$output: \theta^T x$

• 本文已收录于以下专栏：

Stanford Machine Learning 公开课笔记(1) Linear Regression

【NOTES】 regression: to predict the continues valued output. classification: to predi...

Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”

Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)” 发表于 2012年05月6号 由 52nl...

《机器学习》（Machine Learning）——Andrew Ng 斯坦福大学公开课学习笔记(三)

举报原因： 您举报文章：深度学习：神经网络中的前向传播和反向传播算法推导 色情 政治 抄袭 广告 招聘 骂人 其他 (最多只允许输入30个字)