回归-用极大似然估计来解释最小二乘

最新推荐文章于 2024-04-06 15:13:55 发布

天空中的一缕微风

最新推荐文章于 2024-04-06 15:13:55 发布

阅读量7.1k

点赞数 1

分类专栏： machine learning 文章标签：数据分析

本文链接：https://blog.csdn.net/zlbflying/article/details/47782657

版权

machine learning 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

导语

这是线性回归的第一篇，后面还有多篇，包括普通最小二乘、梯度下降、牛顿法等知识，本篇主要是阐述最小二乘法损失函数与高斯分布的联系，虽然逻辑回归也是线性回归的一个变种，但它主要是0-1分布，不在本篇讨论之列。

损失函数

任何一本概率论书在讲线性回归时都会说到一个方法，叫做最小二乘法，这里先给出线性回归的定义式：

y = θ T * X

$y=\theta^T*X$

这里是一种表达习惯， $X$ 与 $\theta$ 都是列向量

给定一系列样本与观测值，现在来拟合参数 $\theta$ ，那么什么样的参数才算是好的呢？总该有一个判断标准吧，因此，华丽丽的损失函数上场：

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)={1 \over 2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
这个公式就是大名顶顶的最小二乘建立的目标公式，

hθ(x(i)) $h_\theta(x^{(i)})$ 表示的样本

x(i) $x^{(i)}$ 的理论值，

y(i) $y^{(i)}$ 表示的是观测值。这个函数非常便于理解，就是总误差平方和的

12 $1 \over 2$ ，前面的系数只是为了后面计算方便加上的，不会对整体产生影响。
我们假设观测值与理论值是有误差的，那么我们可以定义如下公式，其中

ε(i) $\varepsilon^{(i)}$ 表示样本

x(i) $x^{(i)}$ 的误差。

y (i) = θ T * x (i) + ε (i)

$y^{(i)}=\theta^T*x^{(i)}+\varepsilon^{(i)}$
到这里，损失函数就算是定义完成了，也许有人问了，为啥是“理论值-观测值”的平方，绝对值不行吗？4次方不行吗?ok，这个问题下面解释。

正态分布与极大似然估计

关于正态分布本身，这里不做过多解释，这里假设读者对于正态分布已经有一定的了解，正态分布是非常常见的一种分布，这里假设误差是符合高斯分布的，且期望为0，原理可参见中心极限定理。误差既然符合高斯分布，那么我们可写出它的概率公式：

p (ε (i)) = 1 2 π - - \sqrt σ e x p (- ε ( i ) 2 2 σ 2)

$p(\varepsilon^{(i)})={1 \over \sqrt{2 \pi}\sigma}exp^{(-{{\varepsilon^{(i)}}^2 \over {2\sigma^2}} )}$
由上一节的误差公式可看出，

ε(i)=y(i)−θTx(i) $\varepsilon^{(i)}=y^{(i)}-\theta^Tx^{(i)}$ ,所以

p (y (i)) = p (θ T x (i) + ε (i)) = 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$p(y^{(i)})=p(\theta^Tx^{(i)}+\varepsilon^{(i)})={1 \over \sqrt{2 \pi}\sigma}exp^{(-{({y^{(i)}-{\theta^Tx^{(i)}})}^2 \over {2\sigma^2}} )}$
现在总共有

m $m$ 个样本，那么根据极大似然估计，列出似然函数

L (θ) = \prod i = 1 m p (y (i)) = \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$L(\theta)=\prod_{i=1}^m p(y^{(i)})=\prod_{i=1}^m{1 \over \sqrt{2 \pi}\sigma}exp^{(-{({y^{(i)}-{\theta^Tx^{(i)}})}^2 \over {2\sigma^2}} )}$
对似然函数求对数，得:

log L (θ) = \sum i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m log ˙ 1 2 π - - \sqrt σ - 1 σ 2 * 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\log{L(\theta)}=\sum_{i=1}^m{1 \over \sqrt{2 \pi}\sigma}exp^{(-{({y^{(i)}-{\theta^Tx^{(i)}})}^2 \over {2\sigma^2}} )}={m\dot\log{1 \over\sqrt{2 \pi}\sigma}-{1 \over \sigma^2} *{1 \over 2}{\sum_{i=1}^m(y^{(i)}-{\theta^Tx^{(i)}})^2}}$
推到这里，想要让似然函数取得最大值，则损失函数必须要取得最小值，最小二乘法得到解释。