一元线性回归-最小二乘法最大似然估计

最新推荐文章于 2025-03-26 11:26:25 发布

贪心西瓜

最新推荐文章于 2025-03-26 11:26:25 发布

阅读量8.4k

点赞数 7

分类专栏：统计分析与数据挖掘文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_43217427/article/details/115417384

版权

统计分析与数据挖掘专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了如何通过最小二乘法和最大似然估计法来估计一元线性回归模型中的参数β0和β1。文章首先阐述了模型的基本假设，然后分别讲解了使用这两种方法求解参数的具体步骤和公式，最后指出两者结果的共同之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、引言

本文以一元线性回归为例，整理线性回归模型参数的估计方法。

样本 $(x, y)$ 可由 $y=\beta _{0}+\beta _{1}x+\varepsilon$ 表示，其中， $\varepsilon$ 为随机因素引起的噪声， $y=\beta _{0}+\beta _{1}x$ 为用变量 $x$ 和 $y$ 关系描述的一元线性回归模型。模型中参数 $\beta _{0}$ 和 $\beta _{1}$ 估计的两种常用方法为最小二程法、最大似然估计法。

二、假设条件

（1）样本观测值 $x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})$ 数据是独立观测的；
（2）解释变量 $x$ 是确定性变量，并非随机变量；
（3）随机变量 $y_{1},y_{2},...,y_{n}$ 的期望不等，但方差相等，即 $y_{1},y_{2},...,y_{n}$ 独立但不同分布；
（4）随机变量残差（扰动项） $\varepsilon_{1},\varepsilon_{2},...,\varepsilon_{n}$ 独立同分布，且 $\varepsilon_{i}\sim N(0,\sigma ^{2})$ ，则 $\varepsilon\sim N(0,\sigma ^{2})$

三、最小二乘法

最小二程法用来寻找线性回归模型中的参数 $\beta _{0}$ 和 $\beta _{1}$ 的估计值，估计值用 $\widehat{\beta _{0}}$ 和 $\widehat{\beta _{1}}$ 表示。为获得最优估计值，算法将预测值和真实观测值之间的误差最小作为优化目标，即计算扰动项的最小值：
$min\sum_{i=1}^{n}\varepsilon _{i}=min\sum_{i=1}^{n}(y_{i}-\widehat{y_{i}})=min\sum_{i=1}^{n}\left ( y_{i}-\beta _{0}-\beta _{1}x \right )$
于是 $\beta _{0}$ 和 $\beta _{1}$ 的参数估计变成求 $Q=\sum_{i=1}^{n}\left ( y_{i}-\beta _{0}-\beta _{1}x \right )$ 的极值问题，求偏导
$\begin{cases} \frac{\partial Q}{\partial \beta _{0}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{1}}=0 \end{cases}$
即可得到极值条件下的参数值，即为估计值 $\widehat{\beta _{0}}$ 和 $\widehat{\beta _{1}}$ 。整理后得结果：
$\begin{cases} \widehat{\beta_{0}}=\overline{y}-\widehat{\beta _{1}}\overline{x} \\[2ex] \widehat{\beta_{1}}=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}} \end{cases}$

四、极大似然估计

最小二乘法从扰动项 $\varepsilon$ 的最小值入手，而极大似然估计从扰动项 $\varepsilon$ 的概率分布入手。
最大似然估计的思想是利用总体的分布密度（连续变量）或概率分布（离散变量）的表达式、以及样本提供的信息建立求解未知参数估计量的方法。这种方法将能够使用的样本视为从总体中被抽中的概率最大的样本，所以这些样本的联合分布密度或联合概率分布为最大值时，模型的估计值最准确。
对于线性回归，假设 $\varepsilon$ 服从均值为0、方差为 $\sigma ^{2}$ 正态分布， $x_{i}$ 是与 $y_{i}$ 相关的非随机样本，则 $y_{i}\sim N(\beta _{0}+\beta _{1}x_{i},\sigma ^{2})$ ， $y_{i}$ 的分布密度函数为：
$f_{i}\left ( y_{i} \right )=\frac{1}{\sqrt{2\pi}\sigma }exp\left [ -\frac{1}{2\sigma ^{2}}\left [ y_{i}-(\beta _{0}+\beta _{1}x_{i}) \right ]^{2} \right ]$
样本 $y_{1},y_{2},...,y_{n}$ 的联合密度分布函数为：
$L(y_{1},y_{2},...,y_{n};\beta _{0},\beta _{1})=\prod_{i=1}^{n}f_{i}\left ( y_{i} \right )=(2 \pi \sigma^2)^{-\frac{n}{2}}exp\left [ -\frac{1}{2\sigma ^{2}}\sum_{i=1}^{n} \left [ y_{i}-(\beta _{0}+\beta _{1}x_{i}) \right ]^{2} \right ]$
取对数后：
$ln(L)=-\frac{n}{2}ln(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}[y_{i}-\beta_{0}-\beta_{1}x_{i}]^2$
等价于求 $\sum_{i=1}^{n}[y_{i}-\beta_{0}-\beta_{1}x_{i}]^2$ 的极小值，回到最小二乘法的原理。整理后得结果：
$\begin{cases} \widehat{\beta_{0}}=\overline{y}-\widehat{\beta _{1}}\overline{x} \\[2ex] \widehat{\beta_{1}}=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}} \end{cases}$
参考书：《应用回归分析》何晓群