多元线性回归-最小二乘法最大似然估计

最新推荐文章于 2022-06-30 19:54:25 发布

贪心西瓜

最新推荐文章于 2022-06-30 19:54:25 发布

阅读量5.9k

点赞数 2

分类专栏：统计分析与数据挖掘文章标签：统计学

本文链接：https://blog.csdn.net/weixin_43217427/article/details/115679081

版权

统计分析与数据挖掘专栏收录该内容

7 篇文章 1 订阅

订阅专栏

一、引言

设随机变量 $y$ 与一般变量 $x_{1},x_{2},...,x_{p}$ 的线性回归模型为：
$y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+...+\beta _{p}x_{p}+\varepsilon$
式中， $\beta _{0},\beta _{1},...,\beta _{p}$ 是要估计的参数， $\beta _{0}$ 为回归常数， $\beta _{1},...,\beta _{p}$ 为回归系数； $x _{1},x_{2}...,x _{p}$ 为解释变量； $y$ 为被解释变量； $\varepsilon$ 为残差。

对于实际问题，获得 $n$ 组观测数据 $x_{i1},x_{i2},...,x_{ip}; y_{i}),i=1,2,...,n$ ，则线性回归模型可以表示为：
$\begin{cases} y_{1}=\beta _{0}+\beta _{1}x_{11}+\beta _{2}x_{12}+...++\beta _{p}x_{1p}+\varepsilon_{1} \\[2ex] y_{2}=\beta _{0}+\beta _{1}x_{21}+\beta _{2}x_{22}+...++\beta _{p}x_{2p}+\varepsilon_{2} \\[2ex] ......\\[2ex] y_{n}=\beta _{0}+\beta _{1}x_{n1}+\beta _{2}x_{n2}+...++\beta _{p}x_{np}+\varepsilon_{n} \\[2ex] \end{cases}$
写成矩阵形式 $y=X\beta+\varepsilon$ ，式中
$y=\begin{bmatrix}y_{1}\\ y_{2}\\ ...\\ y_{n}\end{bmatrix} X=\begin{bmatrix}1 & x_{11}& ...& x_{1p}& \\ 1 & x_{21}& ...& x_{2p}& \\ ... & ...& ...& ... & \\ 1 & x_{n1}& ...& x_{np}& \end{bmatrix} \beta=\begin{bmatrix}\beta_{1}\\ \beta_{2}\\ ...\\ \beta_{p}\end{bmatrix} \varepsilon=\begin{bmatrix}\varepsilon_{1}\\ \varepsilon_{2}\\ ...\\ \varepsilon_{n}\end{bmatrix}$
X是 $n\times (p+1)$ 阶矩阵，是自变量的样本矩阵。

二、假设条件

假设条件	检验方法	失效后果
（1）样本观测样本数据是独立观测的；
（2）解释变量 $x _{1},x_{2}...,x _{p}$ 是确定性变量，不是随机变量；
（3）自变量和因变量是线性关系；	【散点图分析： $y - x$ 散点图】	预测能力差
（4）随机变量残差（扰动项） $\varepsilon_{1},\varepsilon_{2},...,\varepsilon_{n}$ 独立同分布；	【异方差检验： $\varepsilon-x$ 散点图、DW检验】	扰动项标准差估计不准， T检验失效
（5） $\varepsilon_{i}\sim N(0,\sigma ^{2})$ ，则 $\varepsilon\sim N(0,\sigma ^{2})$ ；	【QQ检验】	T检验失效
（6）解释变量和扰动项不存在线性关系；	【残差图分析： $\varepsilon- x$ 散点图】	回归系数估计有偏
（7）解释变量之间不存在线性关系或强相关；	【膨胀系数判断】	回归系数的标准误被放大

三、回归参数估计

3.1 最小二乘估计

对于模型 $y=X\beta+\varepsilon$ ，最小二乘法就是寻找 $\beta _{0},\beta _{1},...,\beta _{p}$ ，使离差平方和达到最小/极小值，则
$Q(\widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}})=min\sum_{i=1}^n(y_{i}-\beta _{0}-\beta _{1}x_{i1}+\beta _{2}x_{i2}+...++\beta _{p}x_{ip})^2$
$\widehat{\beta _{0}},\widehat{\beta _{1}},...,\widehat{\beta _{p}}$ 为回归参数的估计值。根据微分求极值原理，
$\begin{cases} \frac{\partial Q}{\partial \beta _{0}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{1}}=0 \\[2ex] \frac{\partial Q}{\partial \beta _{2}}=0 \\[2ex] ...\\[2ex] \frac{\partial Q}{\partial \beta _{p}}=0\\[2ex] \end{cases}$
整理后得
$\widehat{\beta }=(X^{T}X)^{-1}X^{T}y$
则
$\widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p}$

3.2 最大似然估计

多元线性回归参数的最大似然估计与一元线性回归的思想一致，对于模型 $y=X\beta+\varepsilon$ ，有 $\varepsilon\sim N(0,\sigma ^{2})$ ， $X$ 是与 $y$ 相关的非随机变量，则 $y\sim N(X\beta,\sigma ^{2})$ 。此时最大似然函数
$\pi \sigma^2)^{-n/2}exp(-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta))$
取对数后
$lnL=-\frac{n}{2}ln(2 \pi )-\frac{n}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}(y-X\beta)^T(y-X\beta))$
这等价于使 $(y-X\beta)^T(y-X\beta)$ 达到最小值，与最小二乘法一致。参数的估计结果
$\widehat{\beta }=(X^{T}X)^{-1}X^{T}y$
则
$\widehat{y}=\widehat{\beta _{0}}+\widehat{\beta _{1}}x_{1}+\widehat{\beta _{2}}x_{2}+...+\widehat{\beta _{p}}x_{p}$

参考书：《应用回归分析》何晓群

贪心西瓜

关注

2
点赞
踩
42

收藏

觉得还不错? 一键收藏
0
评论
多元线性回归-最小二乘法最大似然估计

引言设随机变量yyy与一般变量x1,x2,...,xpx_{1},x_{2},...,x_{p}x1,x2,...,xp的线性回归模型为：y=y=y=样本(x,y)(x,y)(x,y)可由y=β0+β1x+εy=\beta _{0}+\beta _{1}x+\varepsilony=β0+β1x+ε 表示，其中，ε\varepsilonε为随机因素引起的噪声， y=β0+β1xy=\beta _{0}+\beta _{1}xy=β0+β1x为用变量xxx和yyy关系描述的一元线性回归
复制链接

扫一扫