深度理解线性回归&中心极限定理&最大似然估计&MSE推导

@一夜看尽长安花

于 2024-08-13 08:32:23 发布

阅读量825

点赞数 21

分类专栏： PythonAI # 机器学习文章标签：线性回归算法回归人工智能 MSE MLE

本文链接：https://blog.csdn.net/ta683280/article/details/141150685

版权

PythonAI 同时被 2 个专栏收录

64 篇文章 0 订阅

订阅专栏

机器学习

3 篇文章 0 订阅

订阅专栏

欢迎来到@一夜看尽长安花博客，您的点赞和收藏是我持续发文的动力

对于文章中出现的任何错误请大家批评指出，一定及时修改。有任何想要讨论的问题可联系我：3329759426@qq.com 。发布文章的风格因专栏而异，均自成体系，不足之处请大家指正。

专栏：

java全栈
C&C++
PythonAI
PCB设计
Linux云计算&运维

文章概述：深度理解线性回归&中心极限定理&最大似然估计&MSE推导

关键词：

本文目录：

深入线性回归推导出MSE

深入线性回归算法的推导

深入理解线性回归

理解回归一词来源

中心极限定理

正太分布与预测的关系

再理解一遍误差

最大似然估计

概率密度函数

正太分布的线性回归的最大总似然

推导出线性回归损失函数MSE

明确目标

对数似然函数

继续往后推导出损失函数MSE

总结与扩展

解析解方法求解线性回归

解析解的推导

最小二乘形式变化个写法

推导出θ的解析解形式

判定损失函数凸函数

深入线性回归推导出MSE

深入线性回归算法的推导

深入理解线性回归

前面我通过讲线性回归相信大家已经理解了回归任务是做什么的，但是还不知道具体怎么做，就是说怎么求出最优解，为了透彻理解我必须再补充一些概念，只有有了这些概念我们后面才能推导出线性回归所需要的损失函数，进而去进一步理解最优解该如何去求。

理解回归一词来源

回归简单来说就是“回归平均值”(regression to the mean)。但是这里的mean并不是把历史数据直接当成未来的预测值，而是会把期望值当作预测值。至于原因请允许我娓娓道来。

追根溯源回归这个词是一个叫高尔顿的人发明的，他通过大量观察数据发现：

父亲是比较高的，儿子也是比较高的

父亲是比较矮的，儿子也是比较矮的

父亲是2.26，儿子可能很高但是不会达到2.26

父亲是1.65，儿子可能不高，但是比1.65高

大自然让我们回归到一定的区间之内

高尔顿是谁？达尔文的表哥，这下可以相信他说的八成是对的了吧。

中心极限定理

高尔顿钉板

中心极限定理（central limit theorem）是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件。

它是概率论中最重要的一类定理，有广泛的实际应用背景。在自然界与生产中，一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。

正太分布与预测的关系

也叫高斯分布

举例：足球队身高的例子，篮球队身高的例子，预测前提就是首先知道我们的数据集更服从哪种分布

如果我们有一组身高的数据，从上图我们人是可以直观上看出来会服从哪一个分布，但是计算机怎么知道？它必须要通过计算数值比大小才能知道，关键比较大小的这个数值该怎么算呢？

这个时候，如果我们知道一个样本目标变量即一个人的身高在篮球队出现的概率，同时如果也知道这个样本目标变量即还是那个身高在足球队出现的概率，我们通过概率值就可以知道这个人更有可能是打篮球的，还是踢足球的。

那如果我们把问题扩展到我们的所有样本呢？那问题就变成了去看这组样本是来自于篮球队的还是来自于足球队的问题了。这里我们就需要有更科学的猜也就是估计的方法了。

还有一个问题，那就是仔细想会发现我们好像并不能一开始就很确定我们的一组数据是随机出现的，并且互相独立的，从而去假设它们呈现正太分布？

假设误差服从正态分布_最大似然估计MLE

再理解一遍误差

再讨论误差的目的是为了我们先来回答后一个问题的解决方法。

第i个样本实际的值yi 等于预测的值yi_hat 加误差εi，或者公式可以表达为如下

假定所有的样本的误差都是独立的，有上下的震荡，震荡认为是随机变量，足够多的随机变量叠加之后形成的分布，根据中心极限定理，它服从的就是正态分布，因为它是正常状态下的分布，也就是高斯分布！均值是某一个值，方差是某一个值。

方差我们先不管，均值我们总有办法让它去等于零0的，因为我们这里是有W0截距的，所有误差我们就可以认为是独立分布的，1<=i<=m，服从均值为0，方差为某定值的高斯分布。

机器学习中我们假设误差符合均值为0，方差为定值的正态分布！！

可以举例北京不同区县房价的误差，来理解我们假设它是互相独立，随机变量的合理性！

最大似然估计

为了回答前一个问题的解决方法，我们来学习一下最大似然估计。

在统计学中，最大似然估计（英语：maximum likelihood estimation，缩写为MLE），也称最大概似估计，是用来估计一个概率模型的参数的一种方法。这个方法最早是遗传学家以及统计学家罗纳德·费雪fisher爵士在1912年至1922年间开始使用的。“似然”是对likelihood 的一种较为贴近文言文的翻译，“似然”用现代的中文来说即“可能性”。故而，若称之为“最大可能性估计”则更加通俗易懂。在英语语境里，likelihood 和 probability 的日常使用是可以互换的，都表示对机会 (chance) 的同义替代。

给定一个概率分布D，已知其概率密度函数（连续分布）或概率质量函数（离散分布）为f_D，以及一个分布参数θ，我们可以从这个分布中抽出一个具有n个值的采样X1,X2,...,X_n，利用f_D计算出其似然函数：

若D是离散分布，

即是在参数为θ时观测到这一采样的概率。若其是连续分布，

则为X1,X2,...,X_n联合分布的概率密度函数在观测值处的取值。一旦我们获得X1,X2,...,X_n，我们就能求得一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值（即，在所有可能的θ取值中，寻找一个值使这个采样的“可能性”最大化）。从数学上来说，我们可以在θ的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的

值即称为θ的最大似然估计。由定义，最大似然估计是关于样本的函数。

因为我们前面说了既然世间万物很多事情都服从中心极限定理，而机器学习中就假设了数据预测的误差服从正太分布，很明显正太分布是连续的分布，所以故而需要误差对应的正太分布的概率密度函数。

引入正态分布的概率密度函数

概率密度函数

在数学中，连续型随机变量的概率密度函数是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。

最简单的概率密度函数是均匀分布的密度函数。最简单的概率密度函数是均匀分布的密度函数。也就是说，当 x 不在区间 a,b 上的时候，函数值等于 0 ；而在区间 a,b 上的时候，函数值等于这个函数。这个函数并不是完全的连续函数，但是是可积函数。

最常见的连续概率分布是正态分布，而这正是我们所需要的，其概率密度函数如下：

随着参数μ和σ变化，概率分布也产生变化。

下面重要的步骤来了，我们要把一组数据误差出现的总似然，也就是一组数据之所以对应误差出现的整体可能性表达出来了，因为数据的误差我们假设服从一个正太分布，并且通过截距项来本质上平移整体分布的位置从而使得μ=0，所以对于一条样本的误差我们可以表达其概率密度函数的值为如下：

这里是估计误差将误差看作自变量x,均值为0，方差为一个定值

有样本数据可以计算出

，如

明确目标通过最大总似然求解θ

正太分布的线性回归的最大总似然

接下来我们就是要把最大似然函数通过正太分布概率密度函数表达出来

这时，因为我们假设了误差服从正太分布，符合中心极限定理，那么也就是样本误差服从了互相独立的假设，所以我们可以把上面式子写出连乘的形式。

关于独立为什么可以连乘，大家回想一下关于概率的公式

P（AB）=P(A)P(B）

所以

因为我们现在讲的是线性回归，所以误差函数可以写为如下：

从上式中我们可以看出来，这样我们的历史数据中的X和y就都可以被用上去求解了

所以正太分布假设下的最大似然估计函数可以写成如下：

推导出线性回归损失函数MSE

明确目标

下面我们要推导出线性回归损失函数，为什么要干这件事？因为第一章里面我们说过要去求解出最优解，我们往往干的事情就是最小化损失函数。所以我们必须首先知道这个算法对应的损失函数是什么？

上面我们已经有了总似然的表达公式，而我们也有最大总似然这种数学思想，所以我们可以先往后沿着把总似然最大化这个思路继续看看会发生什么。

说白了，最大似然估计就是一种参数估计的方式，就是把总似然最大的那一时刻对应的参数θ当成是要求的最优解！

这时我们就可以把通过最大化似然函数的形式成为我们的目标函数，因为我们的目标就是最大化这个式子从而求解theta

对数似然函数

首先我们了解一下log对数函数的特性，我们可以发现它的特点是当底数a>1时，它是一个单调递增的函数，单调递增怎么了？很棒！意味着如果x1<x2，那么必然y1<y2，更棒的是，我们上面的式子是要找出总似然最大时对应的θ是多少，所以是不是就意味着等价于找出总似然的对数形式最大时对应的θ是多少呢！！！必须的，求出来的θ一定是一样的。当然这里底数必须要大于1，我们选择底数为科学计数e，至于原因后面马上就知道了。