线性回归模型（OLS）1

生信了（公众号同名）

已于 2024-08-29 11:07:23 修改

阅读量7.4k

点赞数

文章标签：线性回归 r语言算法

于 2022-08-04 19:13:53 首次发布

本文链接：https://blog.csdn.net/biocity/article/details/126165067

版权

本文介绍了线性回归模型的基本定义，并通过R语言中的lm函数展示了一个使用mtcars数据集的示例。线性回归是数据处理的基础，文章详细解释了最小二乘法（OLS）如何用于确定模型参数，并给出了模型参数的解析解。

摘要由CSDN通过智能技术生成

本系列文章基于R语言中lm函数的输出，介绍线性回归模型的例子和原理。

本文是系列文章的第一篇，将介绍线性回归模型的定义并给出一个R语言的示例。

线性回归模型是我们日常工作中处理数据时经常使用的一种基础模型。了解线性回归模型的原理和细节有助于我们学习其他模型，如广义线性模型（GLM模型）。
本文包括以下四个小节：
1. 定义
2. 示例：mtcars数据集
3. 模型推导
4. 附录代码

以下文章为免费试读部分，完整文章可到公号“生信了”付费阅读

1. 定义

假设我们观察到一些数据 $\{\mathbf{x}_i, y_i\}_{i=1}^n$ ，其中 $\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{ip})^\mathsf{T}$ ，线性回归模型研究因变量 $y_i$ 和自变量 $\mathbf{x}_i$ 之间的关系：

$\begin{align*} y_i &= \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \epsilon_i \\ &= \sum_{j=0}^p \beta_j x_{ij} + \epsilon_i, \qquad (x_{i0} = 1) \tag{1.1} \end{align*}$

其中 $\beta_j$ 是回归系数，是我们要求解的模型参数；而 $\epsilon_i$ 是误差项，代表观测值 $y_i$ 与理论值 $\sum_{j=0}^p \beta_j x_{ij}$ 之间的偏差。这里我们需要注意的是线性回归模型中的“线性”是针对回归系数而言的，也就是说模型可以泛化为：

$\begin{align*} y_i &= \beta_0 + \beta_1 \phi_1(x_{i1}) + \beta_2 \phi_2(x_{i2}) + \cdots + \beta_p \phi_p(x_{ip}) + \epsilon_i \\ &= \sum_{j=0}^p \beta_j \phi_j(x_{ij}) + \epsilon_i, \qquad (\phi_0(x_{i0}) = 1) \tag{1.2} \end{align*}$

其中 $\phi_j(\cdot)$ 可以是“非线性”函数（比如二次函数）。

我们希望模型的“拟合值”尽可能接近观测值。有多个指标可以用来衡量这个“接近”的程度，其中最常用的就是误差项的平方，也就是 $\epsilon_i^2$ 。在此指标下，最优的模型应该是让所有观测数据的误差项平方的和最小，也就是让“损失” $L$ 最小化：

$\begin{align*} L &= \sum_{i=1}^n \epsilon_i^2 \\ &= \sum_{i=1}^n \left(y_i - \sum_{j=0}^p \beta_j x_{ij} \right)^2 \tag{1.3} \end{align*}$

我们可以用矩阵形式来重新描述上面的式子（注意到 $L$ 是 $\beta_j$ 的函数）：

$\begin{align*} L = S(\boldsymbol{\beta}) = \| \mathbf{y} - \mathbf{X}\boldsymbol{\beta} \|^2 \tag{1.4} \end{align*}$

其中 $\mathbf{y}=(y_1, y_2, \ldots, y_n)^\mathsf{T}$ ， $\boldsymbol{\beta}=(\beta_0, \beta_1, \ldots, \beta_p)^\mathsf{T}$ ，而 $\mathbf{X}$ 稍微复杂一点，

$\begin{equation} \mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix} \tag{1.5} \end{equation}$

此时，我们要求解的模型最优参数（用 $\hat{\boldsymbol{\beta}}$ 表示）就是：

$\begin{align*} \hat{\boldsymbol{\beta}} &= \arg \min_{\boldsymbol{\beta}} \| \mathbf{y} - \mathbf{X}\boldsymbol{\beta} \|^2 \tag{1.6} \end{align*}$

我们可以比较容易地得到 $\hat{\boldsymbol{\beta}}$ 的解析解，

$\begin{equation} \hat{\boldsymbol{\beta}} = (\mathbf{X}^\mathsf{T} \mathbf{X})^{-1} \mathbf{X}^\mathsf{T} \mathbf{y} \tag{1.7} \end{equation}$

具体的推导过程见“模型推导”小节。上面这种根据最小误差平方和求解模型参数的方法称为普通最小二乘法（OLS），是最小二乘法中最常见的一种（其它包括加权最小二乘等）。

下文首先给出一个R语言中线性回归模型的例子，然后介绍其背后的原理。

2. 示例：mtcars数据集

很多人都了解，我们可以通过R语言中lm函数进行线性回归模型的分析。我们利用R语言中自带的mtcars数据集给出一个示例。mtcars数据集包含了32个品牌/型号的汽车11种不同属性的测量值。

在这里插入图片描述

生信了（公众号同名）

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
线性回归模型（OLS）1

本系列文章基于R语言中lm函数的输出，介绍线性回归模型的例子和原理。本文是系列文章的第一篇，将介绍线性回归模型的定义并给出一个R语言的示例。线性回归模型是我们日常工作中处理数据时经常使用的一种基础模型。...
复制链接

扫一扫