目录
- 线性回归损失函数推导
- 中心极限定理、 正态分布与最大似然估计的定理
- 推导Loss function
- 损失函数与凸函数之间的关系
- 全局最优解和局部最优解 - 梯度下降法求解
- 标准方程法求解
- 正则
- 推导正则化公式
- 加正则的原因
- 用L1-Norm代替L0-Norm的优点
- 正则只对w(也称 θ \theta θ)做限制,不对b做限制
线性回归损失
1. 中心极限定理 在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
2. 最大似然估计
它其实是利用已知的样本结果的信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。
极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。可以根据模型求出参数。
3. 正太分布
即正常状态的分布,就是让更多的数据分布在中心,若随机变量服从一个位置参数(均值)为
μ
\mu
μ即均值为、尺度参数(标准差)为
σ
\sigma
σ 的概率分布,其概率密度函数为:
f
(
x
)
=
1
2
π
σ
2
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x)=\frac{1}{\sqrt{2\pi\sigma ^2}}exp(-\frac{(x-\mu)^2 }{2\sigma ^2})
f(x)=2πσ21exp(−2σ2(x−μ)2)
4. 根据上面定理推导Loss function,即推出最小二乘法
假设误差
ε
i
\varepsilon ^i
εi是独立同分布的(
y
i
y^i
yi真实的样本标记,
θ
x
+
b
\theta x+b
θx+b为模型预测出的值),服从均值为0,方差为
σ
2
\sigma ^2
σ2的高斯分布。因为:中心极限定理。
ε
i
=
y
i
−
(
θ
x
+
b
)
\varepsilon ^i=y^i -(\theta x+b)
εi=yi−(θx+b)
P ( ε i ) = 1 2 π σ 2 e x p ( − ( ε i ) 2 2 σ 2 ) P(\varepsilon ^i) = \frac{1}{\sqrt{2\pi\sigma ^2}}exp(-\frac{(\varepsilon ^{i})^2}{2\sigma ^2}) P(εi)=2πσ21exp(−2σ2(εi)2)
P ( y i ∣ x i ; θ ) = 1 2 π σ 2 e x p ( − ( y i − θ T x i ) 2 2 σ 2 ) P(y^{i}|x^{i};\theta)=\frac{1}{\sqrt{2\pi\sigma^2 }}exp(-\frac{(y^{i}-\theta^{T}x^{i})^2}{2\sigma^2}) P(yi∣xi;θ)=2πσ21exp(−2σ2(yi−θTxi)2)
L
(
θ
)
=
∏
i
=
1
m
P
(
y
i
∣
x
i
;
θ
)
L(\theta) = \prod_{i=1}^{m}P(y^{i}|x^{i};\theta)
L(θ)=i=1∏mP(yi∣xi;θ)
取对数
J
(
θ
)
=
l
o
g
L
(
θ
)
=
∑
i
=
1
m
l
o
g
{
1
2
π
σ
2
e
x
p
(
−
(
y
i
−
θ
T
x
i
)
2
2
σ
2
)
}
=
m
∗
l
o
g
1
2
π
σ
2
−
1
σ
2
∗
1
2
∑
i
=
1
m
(
y
i
−
θ
T
x
i
)
2
\begin{aligned} J(\theta) &=logL(\theta)\\ &=\sum_{i=1}^{m}log\left \{ \frac{1}{\sqrt{2\pi\sigma^2 }}exp(-\frac{(y^{i}-\theta^{T}x^{i})^2}{2\sigma^2}) \right \} \\ &=m*log\frac{1}{\sqrt{2\pi\sigma ^2}}-\frac{1}{\sigma^2}*\frac{1}{2}\sum_{i=1}^{m}(y^i-\theta^Tx^i)^2 \end{aligned}
J(θ)=logL(θ)=i=1∑mlog{2πσ21exp(−2σ2(yi−θTxi)2)}=m∗log2πσ21−σ21∗21i=1∑m(yi−θTxi)2
要使
L
(
θ
)
L(\theta)
L(θ)取最大,
−
1
σ
2
∗
1
2
∑
i
=
1
m
(
y
i
−
θ
T
x
i
)
2
-\frac{1}{\sigma^2}*\frac{1}{2}\sum_{i=1}^{m}(y^i-\theta^Tx^i)^2
−σ21∗21∑i=1m(yi−θTxi)2就得取最小即:
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
i
−
θ
T
x
i
)
2
J(\theta)= \frac{1}{2}\sum_{i=1}^{m}(y^i-\theta^Tx^i)^2
J(θ)=21i=1∑m(yi−θTxi)2
5. 损失函数与凸函数之间的关系
凸函数可以使用梯度下降法找到全局最优解,损失函数需要满足,任意点的值大于0。
6. 全局最优和局部最优
全局最优解指:在一个问题中,这个解在解集中是最优的,就可以被称为全局最优
局部最优:在一个局部集合内,这个解最好。
在选取解时如果可以得到全局最优解固然很好,但实际中很难局部最优解就已经很好了,就像我们结婚也是在自己身边找一个,也是可以恩恩爱爱一生的。
推导梯度下降公式(Gradient Descent)
使用最小二乘法作为代价函数,下面为最小二乘法数学表达式:
L
(
θ
,
b
)
=
∑
i
=
1
m
(
y
i
−
h
(
θ
,
b
)
)
2
L\left ( \theta ,b \right )=\sum_{i=1}^{m}\left ( y^{i}-h\left(\theta,b \right ) \right )^{2}
L(θ,b)=i=1∑m(yi−h(θ,b))2
h
(
θ
,
b
)
=
θ
x
+
b
h(\theta ,b)=\theta x+b
h(θ,b)=θx+b
对
θ
\theta
θ求便导:
∂
L
∂
θ
=
−
2
∑
i
=
1
m
(
y
i
−
θ
x
i
−
b
)
x
i
\frac{\partial L}{\partial \theta}=-2\sum_{i=1}^{m}(y^{i}-\theta x^{i}-b)x^{i}
∂θ∂L=−2i=1∑m(yi−θxi−b)xi
对b求偏导:
∂
L
∂
b
=
−
2
∑
i
=
1
m
(
y
i
−
θ
x
i
−
b
)
\frac{\partial L}{\partial b}=-2\sum_{i=1}^{m}(y^{i}-\theta x^{i}-b)
∂b∂L=−2i=1∑m(yi−θxi−b)
修改权值,lr学习率:
b=
b
0
b_{0}
b0 - lr*
∂
L
∂
b
\frac{\partial L}{\partial b}
∂b∂L
θ
\theta
θ=
θ
0
\theta_{0}
θ0 - lr *
∂
L
∂
θ
\frac{\partial L}{\partial \theta}
∂θ∂L
注意:
在更新权值时,一定要要同步更新,即在对
θ
\theta
θ和b都求完导数后,更新
θ
\theta
θ和b。
标准方程法
根据损失函数,推导使用标准方程法求解(该方法必须$\mathbf{X}$是可逆矩阵,使用时数据量应该小于1万,否则计算复杂度太高)
J
(
θ
)
=
1
2
∑
i
=
1
m
(
h
θ
(
x
i
)
−
y
i
)
2
=
1
2
(
X
θ
−
y
)
T
(
X
θ
−
y
)
\begin{aligned} \mathit{J}(\theta)&=\frac{1}{2} \sum_{i=1}^{m}\left ( h_{\theta}(x^{i})-y^{i} \right )^{2}\\ &=\frac{1}{2}\left ( \mathbf{X\theta-y} \right )^{T} \left ( \mathbf{X\theta- y}\right ) \end{aligned}
J(θ)=21i=1∑m(hθ(xi)−yi)2=21(Xθ−y)T(Xθ−y)
▽
θ
J
(
θ
)
=
▽
θ
(
(
1
2
(
X
θ
−
y
)
T
(
X
θ
−
y
)
)
=
▽
θ
(
1
2
(
θ
T
X
T
X
θ
−
θ
T
X
T
y
−
y
T
X
θ
+
y
y
y
)
)
=
1
2
(
2
X
T
X
θ
−
X
T
y
−
(
y
T
X
)
T
)
=
X
T
X
θ
−
X
T
y
\begin{aligned} \bigtriangledown _{\theta}\mathit{J}(\theta)&=\bigtriangledown _{\theta} \left ( (\frac{1}{2}\left ( \mathbf{X\theta-y} \right )^{T} \left ( \mathbf{X\theta- y}\right ) \right )\\ &=\bigtriangledown _{\theta}\left ( \frac{1}{2}(\mathbf{\theta^{T}X^{T}X\theta - \theta^{T}X^{T}y-y^{T}X\theta+y^{y}y }) \right )\\ &= \frac{1}{2}\left ( \mathbf{2X^{T}X\theta-X^{T}y-(y^{T}X)^{T}} \right )\\ &= \mathbf{X^{T}X\theta-X^{T}y} \end{aligned}
▽θJ(θ)=▽θ((21(Xθ−y)T(Xθ−y))=▽θ(21(θTXTXθ−θTXTy−yTXθ+yyy))=21(2XTXθ−XTy−(yTX)T)=XTXθ−XTy
令偏导的值为0,得:
θ
=
(
X
T
X
)
−
1
X
T
y
\theta = \mathbf{\left ( X^{T}X \right )^{-1}X^{T}y}
θ=(XTX)−1XTy
注意:
为了方便记忆可以先记
X
θ
=
y
\mathbf{X\theta=y}
Xθ=y,再在等式左右两边同时左乘
X
\mathbf{X}
X。
正则化
1. 推导正则化公式∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p \left \| x \right \|_{p} = \left ( \sum_{i=1}^{n} \left | x_{i}\right |^p \right )^\frac{1}{p} ∥x∥p=(i=1∑n∣xi∣p)p1
当p=0时:
非零参数的个数,但很难求解,一般都用L1代替。
当p=1时:
L1范数,即各个参数的绝对值相加,也叫曼哈顿距离,江湖人称lasso。
当p=2时:
L2范数,即各个参数的平方和再开平方,也就是欧式距离,L2正则化江湖人称Ridge,也称“岭回归”。
2. 加正则的原因
正则化可以稀疏神经网络中的权值,通过限制条件,在训练中让一些不重要的权重为0,从而达到稀疏权值的目的,防止过拟合。
对一些线性关系的参数,会使权值为好0,从而减少了参数,使整个模型获得更好的可解释性。
参数值的大小和模型复杂度是成正比的。因此越复杂的模型,其范数就大,最终导致损失函数就大,那么这个模型就不够好,从而可以再训练,使模型优化。
3. 用L1-Norm代替L0-Norm的优点
L1范数就是各个参数的绝对值相加得到的,我们可以简单的得到方便计算。
L0是非0参数的个数,不好求解。
L1范数是L0范数的最优凸近似。
4. 只对w(也称
θ
\theta
θ)做限制,不对b做限制的原因
θ
\theta
θ影响函数的平滑,b只是上下的平移。