先假设一个实体 X 1 X_1 X1有两个属性 x 1 , x 2 x_1,x_2 x1,x2
拟合平面为: h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2 hθ(x)=θ0+θ1x1+θ2x2,这在三维空间中是一个平面随着属性的增多就会变成多为空间的超平面
这里的 θ 0 \theta_0 θ0代表了西瓜书上的常数项 b b b
因为机器学习中所有的计算都是矩阵的计算所以关于
X
X
X的举证会变多加一列1的增广矩阵
[
1
x
11
x
12
.
.
.
1
x
21
x
22
.
.
.
1
x
31
x
32
.
.
.
1
x
41
x
42
.
.
.
]
\begin{bmatrix} 1&x_{11}&x_{12}&...\\ 1&x_{21}&x_{22}&...\\ 1&x_{31}&x_{32}&...\\ 1&x_{41}&x_{42}&...\\ \end{bmatrix}
1111x11x21x31x41x12x22x32x42............
这样就可以写成整合的式子
h
θ
(
x
)
=
∑
i
=
1
n
θ
i
x
i
h_\theta(x)=\sum\limits_{i=1}^n\theta_ix_i
hθ(x)=i=1∑nθixi这里
h
θ
(
x
)
h_\theta(x)
hθ(x)是预测值
这样所有样本值则有方程 y ( i ) = θ T x ( i ) + ϵ ( i ) y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)} y(i)=θTx(i)+ϵ(i)
这个 ϵ \epsilon ϵ为误差项,根据大数定律和为了使用最大似然估计它需符合高斯分布,在实际应用中它要尽可能接近高斯分布,还有因为每个个体都是独立同分布的,因为它符合高斯分布有
p ( ϵ ( i ) ) = 1 2 π σ e x p ( − ( ϵ ( i ) ) 2 2 σ 2 ) p(\epsilon^{(i)})=\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(\epsilon^{(i)})^2}{2\sigma^2}) p(ϵ(i))=2πσ1exp(−2σ2(ϵ(i))2)
ϵ ( i ) = \epsilon^{(i)}= ϵ(i)= y ( i ) − θ T x ( i ) y^{(i)}-\theta^Tx^{(i)} y(i)−θTx(i)
的 p ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) p(y^{(i)}|x^{(i)};\theta)=\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) p(y(i)∣x(i);θ)=2πσ1exp(−2σ2(y(i)−θTx(i))2)
似然函数 L ( θ ) = ∏ i = 1 n p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 n 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) L(\theta)=\prod\limits_{i=1}^np(y^{(i)}|x^{(i)};\theta)=\prod\limits_{i=1}^n\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) L(θ)=i=1∏np(y(i)∣x(i);θ)=i=1∏n2πσ1exp(−2σ2(y(i)−θTx(i))2)
因为我们要求的是极值点 θ \theta θ而不是极大值,这个似然函数的意思是 θ \theta θ与 x x x确定之后 y ( i ) y^{(i)} y(i)的概率
所以可以用对数这样就可以把连乘变为连加
对数似然 l o g L ( θ ) = l o g ∏ i = 1 n 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) logL(\theta)=log\prod\limits_{i=1}^n\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) logL(θ)=logi=1∏n2πσ1exp(−2σ2(y(i)−θTx(i))2)
展开化简 ∑ i = 1 n l o g 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) \sum\limits_{i=1}^nlog\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) i=1∑nlog2πσ1exp(−2σ2(y(i)−θTx(i))2)
= m l o g 1 2 π σ − 1 σ 2 ⋅ 1 2 ∑ i = 1 n ( y ( i ) − θ T x ( i ) ) 2 mlog \dfrac{1}{\sqrt{2\pi}\sigma}-\dfrac{1}{\sigma^2}\cdot\dfrac{1}{2}\sum\limits_{i=1}^n{(y^{(i)}-\theta^Tx^{(i)})^2} mlog2πσ1−σ21⋅21i=1∑n(y(i)−θTx(i))2
这就是对数似然函数,这个函数值越大越好,出了一些确定的值之外就有了最小二乘法,这就是最小二乘法的由来前面的1/2和平方是这么来的,这个最小二乘函数越小越好
J ( θ ) = 1 2 ∑ i = 1 n ( y ( i ) − θ T x ( i ) ) 2 J(\theta)=\dfrac{1}{2} \sum\limits_{i=1}^n{(y^{(i)}-\theta^Tx^{(i)})^2} J(θ)=21i=1∑n(y(i)−θTx(i))2
J ( θ ) = 1 2 ∑ i = 1 n ( y ( i ) − θ T x ( i ) ) 2 = 1 2 ( y − X θ ) T ( y − X θ ) J(\theta)=\dfrac{1}{2} \sum\limits_{i=1}^n{(y^{(i)}-\theta^Tx^{(i)})^2}=\dfrac{1}{2} (y-X\theta)^T(y-X\theta) J(θ)=21i=1∑n(y(i)−θTx(i))2=21(y−Xθ)T(y−Xθ)
对 θ \theta θ求偏导 ∂ J ∂ θ = X T X θ − X T y \dfrac {\partial J}{\partial \theta}=X^TX\theta-X^Ty ∂θ∂J=XTXθ−XTy这边计算比较复杂跳过
令偏导为0则有 θ = ( X T X ) − 1 X T y \theta=(X^TX)^{-1}X^Ty θ=(XTX)−1XTy