线性回归的数学推导与最小二乘法

最新推荐文章于 2025-01-24 23:29:16 发布

梦想的理由

最新推荐文章于 2025-01-24 23:29:16 发布

阅读量1.3k

点赞数 24

分类专栏：机器学习文章标签：线性回归最小二乘法机器学习

本文链接：https://blog.csdn.net/m0_51661400/article/details/139062134

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

文章目录

一、前言
二、线性模型的定义
三、模型的假设与误差的详细推导
四、似然函数与对数似然
五、最小二乘法的详细推导
六、总结

一、前言

线性回归是统计学中一种预测数值型数据的方法。在机器学习和数据分析领域，线性回归通常用于预测一个或多个自变量（predictor variables）和因变量（response variable）之间的关系。本文将详细介绍线性回归的数学原理和其通过最小二乘法的求解过程。

二、线性模型的定义

线性回归模型假设因变量 $y$ 和自变量 $x$ 之间存在线性关系，可以通过一个线性方程来描述：
$h_\theta(x) = \theta^T x$
其中， $\theta$ 代表模型的参数， $x$ 是特征向量。

三、模型的假设与误差的详细推导

在实际的数据分析中，模型的预测值与真实值之间通常会存在误差。为了建模这种误差，并进行合理的统计推断，通常假设误差项 $\varepsilon^{(i)}$ 遵循某种概率分布。在线性回归模型中，最常见的假设是误差项遵循独立同分布的正态分布。

误差项的假设

假设对于所有的 $i$ ，误差 $\varepsilon^{(i)}$ 独立且服从均值为0、方差为 $\sigma^2$ 的正态分布。这可以数学上表示为：
$\varepsilon^{(i)} \sim N(0, \sigma^2)$
这意味着误差项的概率密度函数（PDF）为：
$p(\varepsilon^{(i)}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}\right)$

模型的表示

在给定模型参数 $\theta$ 和自变量 $x^{(i)}$ 的条件下，响应变量 $y^{(i)}$ 的表达式为：
$y^{(i)} = \theta^T x^{(i)} + \varepsilon^{(i)}$
根据误差项的分布假设，我们可以推导出给定 $x^{(i)}$ 时 $y^{(i)}$ 的条件概率密度函数：
$y^{(i)} \mid x^{(i)}; \theta \sim N(\theta^T x^{(i)}, \sigma^2)$
因此， $y^{(i)}$ 的条件概率密度函数为：
$p(y^{(i)} \mid x^{(i)}; \theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right)$

误差分布的重要性

这种假设不仅简化了模型的数学处理，还允许我们使用最小二乘法来估计参数 $\theta$ ，因为最小二乘法估计在正态误差分布的假设下是最佳线性无偏估计（BLUE）。此外，正态分布假设还支持进行各种统计推断，如置信区间和假设检验。

通过以上推导，我们看到模型的假设对于参数估计和统计分析的正确性是至关重要的。误差分布的选择基于实际数据的特性以及分析的需求，其中正态分布假设因其数学属性和中心极限定理的支持，在实践中被广泛采用。

四、似然函数与对数似然

为了找到最佳的参数 $\theta$ ，我们构造似然函数来衡量在给定参数 $\theta$ 下数据出现的概率：
$L(\theta) = \prod_{i=1}^m p(y^{(i)} | x^{(i)}; \theta)$
对数似然函数为：
$\log L(\theta) = \sum_{i=1}^m \log \left( \frac{1}{\sqrt{2\pi}\sigma} \exp \left(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2\sigma^2}\right) \right)$
展开后，我们可以得到一个关于 $\theta$ 的函数，该函数与最小二乘法中的目标函数密切相关。

五、最小二乘法的详细推导

最小二乘法是一种广泛使用的线性回归求解方法，它通过最小化误差的平方和来估计模型参数。我们从定义目标函数开始：

$J(\theta) = \frac{1}{2} \sum_{i=1}^m (y^{(i)} - \theta^T x^{(i)})^2$

这里， $J(\theta)$ 表示损失函数，即所有样本的预测误差平方和的一半。 $m$ 是样本数量， $y^{(i)}$ 是第 $i$ 个观测值， $\theta^T x^{(i)}$ 是第 $i$ 个预测值。

目标函数的矩阵形式

为了方便求解，将上述求和表达式转换为矩阵形式。定义矩阵 $X$ 为设计矩阵，其中包含所有样本的特征， $y$ 为观测值向量。则目标函数可重写为：

$J(\theta) = \frac{1}{2} (X\theta - y)^T (X\theta - y)$

求导并求解 $\theta$

为了找到使 $J(\theta)$ 最小的 $\theta$ ，需要对 $\theta$ 求导并设置导数等于零。使用矩阵求导公式，求解过程如下：

展开目标函数：
$J(\theta) = \frac{1}{2} (\theta^T X^T - y^T)(X\theta - y)$
$\frac{1}{2} (\theta^T X^T X \theta - \theta^T X^T y - y^T X \theta + y^T y)$
对 $\theta$ 求导：
导数涉及以下几个部分的矩阵求导：
- $\begin{aligned}\frac{\partial}{\partial \theta} (\theta^T X^T X \theta) = 2X^T X \theta\end{aligned}$ （应用了 $\begin{aligned}\frac{\partial}{\partial X} (X^T A X) = \left(A+A^T\right) X\end{aligned}$ 当 $A$ 为对称矩阵）
- $\begin{aligned}\frac{\partial}{\partial \theta} (\theta^T X^T y) = X^T y\end{aligned}$ （因为 $\begin{aligned}\frac{\partial}{\partial \theta} (\theta^TX) = X\end{aligned}$ ）
- $\begin{aligned}\frac{\partial}{\partial \theta} (y^T X \theta) = X^T y\end{aligned}$ （因为 $\begin{aligned}\frac{\partial}{\partial \theta} (X \theta) = X^T\end{aligned}$ ）
综合上述导数：
$\frac{\partial J(\theta)}{\partial \theta} = X^T X \theta - X^T y$
设置导数等于零求解 $\theta$ ：
$X^T X \theta = X^T y$
解这个方程得到 $\theta$ 的最优解：
$\theta = (X^T X)^{-1} X^T y$