更多深度学习资讯都在公众号:DLCV
什么是最小二乘法:
最小二乘法是一种误差度量方法,一种被优化的问题,在线性最小二乘问题中可以直接求解
x
=
(
A
T
A
)
−
1
A
T
b
x=\left(A^{T} A\right)^{-1} A^{T} b
x=(ATA)−1ATb得到全局最优,但是在非线性最小二乘问题中无法用此方法求解,此时就需要迭代法来求解,比如梯度下降法,牛顿法。
最小二乘与极大似然的关系:
在测量误差服从高斯分布的情况下,最小二乘法等价于极大似然估计。
举例:
假设样本是从高斯分布中采样获得,高斯概率分布函数为:
f
(
x
;
μ
,
σ
)
=
1
σ
2
π
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x ; \mu, \sigma)=\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)
f(x;μ,σ)=σ2π1exp(−2σ2(x−μ)2)
噪声服从高斯分布的意思就是说,样本取值的期望 u 落在我们将要拟合的直线上。但是由于高斯噪声的存在,会一个偏差,该偏差符合正态分布,在两个标准差之间的范围内,两个标准差内的概率约为96%。这里的每一个样本都独立同分布,于是他们的联合概率应该满足:
p
X
,
Y
(
x
,
y
)
=
p
X
(
x
)
⋅
p
Y
(
y
)
p_{X, Y}(x, y)=p_{X}(x) \cdot p_{Y}(y)
pX,Y(x,y)=pX(x)⋅pY(y)
累乘的结果是:
1
σ
2
π
exp
(
−
(
x
−
μ
1
)
2
2
σ
2
)
⋅
1
σ
2
π
exp
(
−
(
x
−
μ
2
)
2
2
σ
2
)
…
\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(x-\mu 1)^{2}}{2 \sigma^{2}}\right) \cdot \frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(x-\mu 2)^{2}}{2 \sigma^{2}}\right) \dots
σ2π1exp(−2σ2(x−μ1)2)⋅σ2π1exp(−2σ2(x−μ2)2)…
省略后面的乘项。上式相乘简化为指数相加,指数部分变为:
(
−
(
x
−
μ
1
)
2
2
σ
2
)
+
(
−
(
x
−
μ
2
)
2
2
σ
2
)
+
…
\left(-\frac{(x-\mu 1)^{2}}{2 \sigma^{2}}\right)+\left(-\frac{(x-\mu 2)^{2}}{2 \sigma^{2}}\right)+\ldots
(−2σ2(x−μ1)2)+(−2σ2(x−μ2)2)+…
只看分子,得:
−
[
(
x
−
μ
1
)
2
+
(
x
−
μ
2
)
2
+
(
x
−
μ
3
)
2
…
]
-\left[(x-\mu 1)^{2}+(x-\mu 2)^{2}+(x-\mu 3)^{2} \ldots\right]
−[(x−μ1)2+(x−μ2)2+(x−μ3)2…]
这便是最小二乘的模样。最小二乘法的思想是要求平方和尽可能小。上式前面加上了负号,也就是上式尽可能大,式是一个指数,指数越大,便是联合概率越大,联合概率越大,表示样本的落点越有可能贴近拟合的直线,这便是最大似然的思想。
最小一乘法介绍:
最小一乘法只要求各实测点到回归直线的纵向距离的绝对值之和为最小。它不要求随机误差服从正态分布,“稳健性”比最小二乘法好。在数据随机误差不服从正态分布时,最小一乘法的统计性能优于最小二乘法。【百度百科】
举例:
当噪声服从拉普拉斯分布时
的概率分布为:
f
(
x
∣
μ
,
b
)
=
1
2
b
exp
(
−
∣
x
−
μ
∣
b
)
f(x | \mu, b)=\frac{1}{2 b} \exp \left(-\frac{|x-\mu|}{b}\right)
f(x∣μ,b)=2b1exp(−b∣x−μ∣)
此时指数部分为绝对值,表示的是,所有数据到拟合出的直线的距离之和最小。新样本有最大可能的靠近该拟合的直线。
结论:
对于噪声的分布不同,应该选取对应的拟合方式。如果数据符合高斯分布,此时做线性回归应该用最小二乘法。
参考链接:
微信公众号:深度学习视觉
Blog: fainke.com
https://www.zhihu.com/question/24095027
https://baike.baidu.com/item/%E6%9C%80%E5%B0%8F%E4%B8%80%E4%B9%98%E6%B3%95/585848?fr=aladdin