线性回归算法和最小二乘法数学推导
文章目录
前言
本文主要介绍线性回归算法的基本概念,并拓展 理解线性回归算法其中的一些数学原理
一、线性回归其中的基本数学概念
1.回归的概念
回归(regression to mean),意为回归平均值,是指通过历史数据的推算给出期望值,并将期望值作为预测值。而线性回归的原理则就是最小二乘法
2.误差分析
误差
ε
i
\varepsilon _ i
εi等于第i个样本实际的值,
y
i
y_i
yi减去预测的值,
y
^
\hat y
y^,公式可以代表如下:
ε
i
=
∣
y
i
−
y
^
∣
\varepsilon_i = |y_i - \hat y|
εi=∣yi−y^∣
ε
i
=
∣
y
i
−
W
T
x
i
∣
\varepsilon_i = |y_i - W^Tx_i|
εi=∣yi−WTxi∣
假设所有的样本误差都是独立的,当足够多的随机变量叠加之后形成的分布,它服从的分布就是正态分布。
3.最大似然估计
最大似然估计(maximum likelihood estimation,MLE)一种重要而普遍的求估计量的方法。最大似然估计明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树,最大似然估计是一类完全基于统计的系统发生树重建方法的代表。
4.高斯分布-概率密度函数
最常见的连续概率分布是正态分布,也叫做高斯分布,其概率密度函数如下:
f
(
x
∣
μ
,
δ
2
)
=
1
2
π
δ
e
−
(
x
−
μ
)
2
2
δ
2
f(x|\mu,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{(x-\mu)^2}{2\delta^2}}
f(x∣μ,δ2)=2πδ1e−2δ2(x−μ)2
随着参数
μ
\mu
μ和参数
δ
\delta
δ的变化,概率分布也会产生变化。
通过假设数据的误差服从一个高斯分布,并且通过截距项平移整体分布的位置从而使得
μ
=
0
\mu = 0
μ=0,送一样本误差我们可以表示表达其概率密度函数的值如下所示:
f
(
ε
∣
μ
=
0
,
δ
2
)
=
1
2
π
δ
e
−
(
ε
−
0
)
2
2
δ
2
f(\varepsilon|\mu = 0,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{(\varepsilon-0)^2}{2\delta^2}}
f(ε∣μ=0,δ2)=2πδ1e−2δ2(ε−0)2
简化为:
f
(
ε
∣
μ
=
0
,
δ
2
)
=
1
2
π
δ
e
−
ε
2
2
δ
2
f(\varepsilon|\mu = 0,\delta^2) = \frac{1}{\sqrt{2\pi \delta}}e^{-\frac{\varepsilon^2}{2\delta^2}}
f(ε∣μ=0,δ2)=2πδ1e−2δ2ε2
二、最小二乘法MSE
1.误差总似然
P = ∏ i = 0 n f ( ε i ∣ 0 , δ 2 ) = ∏ i = 0 n 1 2 π ε e − ε i 2 2 δ 2 P = \prod_{i = 0}^nf(\varepsilon_i|0,\delta^2) = \prod_{i =0}^n\frac{1}{\sqrt{2\pi\varepsilon}}e^{-\frac{\varepsilon_i^2}{2\delta^2}} P=i=0∏nf(εi∣0,δ2)=i=0∏n2πε1e−2δ2εi2
P
w
=
∏
i
=
0
n
1
2
π
δ
e
−
ε
i
2
2
δ
2
P_w = \prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{\varepsilon_i^2}{2\delta^2}}
Pw=i=0∏n2πδ1e−2δ2εi2
根据
ε
i
=
∣
y
i
−
W
T
x
i
∣
\varepsilon_i = |y_i - W^Tx_i|
εi=∣yi−WTxi∣可以推导出来如下的公式:
P
w
=
∏
i
=
0
n
1
2
π
δ
e
−
(
y
i
−
W
T
x
i
)
2
2
δ
2
P_w = \prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\delta^2}}
Pw=i=0∏n2πδ1e−2δ2(yi−WTxi)2
2.log函数的基本的运算法则
- l o g a ( X Y ) = l o g a X + l o g a Y log_a(XY) = log_aX + log_aY loga(XY)=logaX+logaY
- l o g a X Y = l o g a X − l o g a Y log_a\frac{X}{Y} = log_a X - log_aY logaYX=logaX−logaY
- l o g a X n = n ∗ l o g a X log_aX^n = n * log_aX logaXn=n∗logaX
- l o g a ( X 1 , X 2 . . . X n ) = l o g a X 1 + l o g a X 2 + . . + l o g a X n log_a(X_1,X_2...X_n) = log_aX_1 + log_aX_2 + .. + log_aX_n loga(X1,X2...Xn)=logaX1+logaX2+..+logaXn
- l o g X X n = n log_XX^n = n logXXn=n
- l o g a 1 X = − l o g a X log_a\frac{1}{X} = -log_aX logaX1=−logaX
- l o g a N y x = y x l o g a N log_a\sqrt[x]{N^y} = \frac{y}{x}log_aN logaxNy=xylogaN
3.将累乘问题转换成累加问题
l o g e ( P w ) = l o g e ( ∏ i = 0 n 1 2 π δ e − ( y i − W T x i ) 2 2 π δ ) log_e(P_w) = log_e(\prod_{i = 0}^n \frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\pi\delta}}) loge(Pw)=loge(i=0∏n2πδ1e−2πδ(yi−WTxi)2)
=
∑
i
=
0
n
l
o
g
e
(
1
2
π
δ
e
−
(
y
i
−
W
T
x
i
)
2
2
π
δ
)
=\sum_{i = 0}^n log_e (\frac{1}{\sqrt{2\pi\delta}}e^{-\frac{(y_i-W^Tx_i)^2}{2\pi\delta}})
=i=0∑nloge(2πδ1e−2πδ(yi−WTxi)2)
=
∑
i
=
0
n
(
l
o
g
e
1
2
π
δ
−
1
δ
2
⋅
1
2
(
y
i
−
W
T
x
i
)
2
)
=\sum_{i = 0}^{n}(log_e\frac{1}{\sqrt{2\pi\delta}} - \frac{1}{\delta^2}\cdot \frac12(y_i - W^Tx_i)^2)
=i=0∑n(loge2πδ1−δ21⋅21(yi−WTxi)2)
其中求最大值的问题可以转换成最小值的问题,也就是求:
L
(
W
)
=
1
2
∑
i
=
0
n
(
y
i
−
W
T
x
i
)
2
L(W) = \frac12\sum_{i = 0}^n (y_i - W^Tx_i)^2
L(W)=21i=0∑n(yi−WTxi)2
的最小值,L代表Loss,表示损失函数,损失函数越小,最上方的最大似然就越大,可以看出,完成了正规方程的推导