机器学习数学基础之线性回归
(本文为学习总结笔记,如有雷同请无视)
知识点:
1、利用矩阵的只是对线性公式进行整合
2、误差项的分析
3、似然函数的理解
4、矩阵求偏导
5、线性回归的最终求解
1. 线性回归公式
y = w k + b y = wk +b y=wk+b
其中b为误差值,对最终的结果影响较小。
线性回归中最重要的求解即为求w。
线性回归在有监督的情况下使用——先利用一定的已知数据进行求解w,再根据w与输入的x求得y
2. 利用矩阵对线性公式整合
线性回归的特征值一般有很多个,即存在很多x。
因此一个线性回归可表示为:(不考虑误差项b的时候)
h
θ
(
x
)
=
θ
1
x
1
+
θ
2
x
2
+
⋯
+
θ
n
x
n
h_{\theta}(x)=\theta_1 x_1+\theta_2 x_2 +\cdots + \theta_n x_n
hθ(x)=θ1x1+θ2x2+⋯+θnxn
h θ ( x ) = ∑ i = 1 n θ i x i h_{\theta}(x)=\displaystyle\sum_{i=1}^n \theta_i x_i hθ(x)=i=1∑nθixi
将上述公式转换为矩阵的形式
提取特征和系数:
[
θ
1
,
θ
2
,
⋯
,
θ
i
]
[ \theta_1,\theta_2,\cdots,\theta_i]
[θ1,θ2,⋯,θi]
[ x 1 , x 2 , ⋯ , x i ] [ x_1,x_2,\cdots,x_i] [x1,x2,⋯,xi]
因此,可知:
h
θ
(
x
)
=
θ
T
x
h_{\theta}(x)=\theta^T x
hθ(x)=θTx
3. 误差项分析
当误差项满足高斯分布的时候,才可以使用线性回归
根据以上得出的结果,可将上述公式添加误差项,得到如下:
h
θ
(
x
)
=
θ
T
x
+
ε
h_{\theta}(x)=\theta^T x + \varepsilon
hθ(x)=θTx+ε
误差项是独立且具有相同的分布,并且服从均值为0,方差为θ平方的高斯分布。
4. 似然函数
y i = θ T x i + ε i y^{i}=\theta^T x^{i} + \varepsilon^{i} yi=θTxi+εi
由于误差项满足高斯分布,因此误差项的概率值如下:
φ ( ε i ) = 1 2 π σ e ( − − ( ε i ) 2 2 σ 2 ) \varphi(\varepsilon_{i}) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{-(\varepsilon^{i})^2}{2\sigma^{2}})} φ(εi)=2πσ1e(−2σ2−(εi)2)
再把函数带入,消去误差项,得:
P
(
y
i
∣
x
i
;
θ
)
=
1
2
π
σ
e
(
−
(
y
i
−
θ
T
x
i
)
2
2
σ
2
)
P(y_i | x_i;\theta) = \dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}
P(yi∣xi;θ)=2πσ1e(−2σ2(yi−θTxi)2)
误差项越小越好,引入似然函数的作用:根据样本来求能够最接近真实值的参数和特征的组成。
得到似然估计函数:
L
(
θ
)
=
∏
i
=
1
m
P
(
y
i
∣
x
i
;
θ
)
=
∏
i
=
1
m
1
2
π
σ
e
(
−
(
y
i
−
θ
T
x
i
)
2
2
σ
2
)
L(\theta)=\prod^m_{i=1} P(y_i | x_i;\theta) = \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}
L(θ)=i=1∏mP(yi∣xi;θ)=i=1∏m2πσ1e(−2σ2(yi−θTxi)2)
目的即为取得似然函数最大
接下来进行取对计算,从而对极大似然函数求解
l
o
g
L
(
θ
)
=
l
o
g
∏
i
=
1
m
1
2
π
σ
e
(
−
(
y
i
−
θ
T
x
i
)
2
2
σ
2
)
logL(\theta) =log \prod^m_{i=1}\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} e^{(-\dfrac{(y_i - \theta^Tx_i)^2}{2\sigma^{2}})}
logL(θ)=logi=1∏m2πσ1e(−2σ2(yi−θTxi)2)
最终求得:
l
o
g
L
(
θ
)
=
m
⋅
l
o
g
1
2
π
σ
−
1
σ
2
⋅
1
2
∑
i
=
1
m
(
y
i
−
θ
T
⋅
x
i
)
2
logL(\theta) = m\cdot log\dfrac{1}{\sqrt{\smash[b]{2\pi}}\sigma} - \dfrac{1}{\sigma^{2}} \cdot \dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
logL(θ)=m⋅log2πσ1−σ21⋅21i=1∑m(yi−θT⋅xi)2
因此为了求其最大值,而m为顶置,故求减去值的最小值,减去最小即为最终结果最大。
故为求:
1
2
∑
i
=
1
m
(
y
i
−
θ
T
⋅
x
i
)
2
\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
21i=1∑m(yi−θT⋅xi)2
越小越好
而令:
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
i
−
θ
T
⋅
x
i
)
2
J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
J(θ)=21i=1∑m(yi−θT⋅xi)2
即为最小二乘法公式,进行求解
5. 最小二乘★(矩阵求导公式)
有公式:
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
i
−
θ
T
⋅
x
i
)
2
J(\theta)=\dfrac{1}{2}\displaystyle\sum_{i=1}^m (y_i - \theta^T\cdot x_i)^2
J(θ)=21i=1∑m(yi−θT⋅xi)2
用矩阵的方式进行转换,可知:
J ( θ ) = 1 2 ( x θ − y ) T ( x θ − y ) J(\theta)=\dfrac{1}{2}(x\theta-y)^T(x\theta-y) J(θ)=21(xθ−y)T(xθ−y)
再对上式求偏导:
J ( θ ) = ▽ θ ( 1 2 ( x θ − y ) T ( x θ − y ) ) J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(x\theta-y)^T(x\theta-y)) J(θ)=▽θ(21(xθ−y)T(xθ−y))
J
(
θ
)
=
▽
θ
(
1
2
(
θ
T
x
T
⋅
x
θ
−
θ
T
x
T
y
−
y
T
x
θ
+
y
T
y
)
)
J(\theta)=\triangledown_\theta ( \dfrac{1}{2}(\theta^Tx^T\cdot x\theta- \theta^Tx^Ty-y^Tx\theta +y^Ty))
J(θ)=▽θ(21(θTxT⋅xθ−θTxTy−yTxθ+yTy))
令偏导为零:
根据矩阵求导三重要公式
公式一:
当满足A为对称阵的时候,有求导法则:
d
X
T
A
X
d
X
=
2
A
X
\dfrac{dX^TAX}{dX} = 2AX
dXdXTAX=2AX
公式二:
d
X
T
A
d
X
=
A
\dfrac{dX^TA}{dX} = A
dXdXTA=A
公式三:
d
A
X
d
X
=
A
T
\dfrac{dAX}{dX} = A^T
dXdAX=AT
根据以上公式进行计算,得:
令上述结果为0;
x和y均为已知,故求得:
θ
=
(
x
T
x
)
−
1
x
T
y
\theta = (x^Tx)^{-1}x^Ty
θ=(xTx)−1xTy
而
w
=
θ
w = \theta
w=θ
因此求得了w,即求得了最重要的参数w