线性回归 Linear Regression (1)_linear regression intercept-CSDN博客

本文链接：https://blog.csdn.net/tsinghuahui/article/details/80207808

1. 什么是线性模型 (linear Regression model)？

线性回归模型通过简单计算输入特征的加权和，再加上一个常数项，即 bias term (又称为 intercept term) 来进行预测，如式-1所示。

【式-1：线性回归模型预测】

y ̂ = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x x

$\hat{y} = \theta_0 + \theta_1x_1 + \theta_2x_2 + \cdots + \theta_nx_x$
-

ŷ y ^ $\hat{y}$ 是预测值
-

n n $n$ 是特征的数量（特征的维度）
-

x_{i}

$x_i$ 是当前实例(instance)的第

i i $i$ 维特征的取值
-

θ_{j}

$\theta_j$ 是第

j j $j$ 个模型参数

式-1可以简洁表达为式-2的形式：

【式-2：线性回归模型预测-向量形式】

\hat{y} = h_{θ} (x) = θ^{T} \cdot x

$\hat{y} = h_{\theta}(\mathbf{x}) = \theta^{T}\cdot\mathbf{x}$
-

θ=θ0,⋯,θn θ = θ 0 , ⋯ , θ n $\theta={\theta_0,\cdots,\theta_n}$ ，是模型的 参数向量 (parameter vector)
-

x=[x0,x1,⋯,xn]T, x0=1 x = [ x 0 , x 1 , ⋯ , x n ] T , x 0 = 1 $\mathbf{x}=[x_0,x_1,\cdots,x_n]^T,\ x_0=1$ ，是当前实例的 特征向量
-

hθ h θ $h_{\theta}$ 是假设函数 (hypothesis function)，模型参数为

θ θ $\theta$

以上即为线性回归模型。

2. 线性回归模型怎么训练？

我们说，训练模型指的是：调整模型参数数，使得模型能够最好地拟合训练数据。因此首先，我们需要确定一个标准(performance measure)来衡量 模型对训练数据拟合得到底有多好（以找到“最好”的参数）。

常见的 performance measure 有 RMSE (Root Mean Square Error), MSE (Mean Square Error)，由于二者对应的最优解相同，而 MSE 更易于求解，因此也更为常用。

【式-3：线性回归模型的 MSE 代价函数/成本函数 (Cost function)】

M S E (X, h θ) = 1 m \sum i = 1 m (θ T \cdot x (i) - y (i)) 2

$MSE(\mathbf{X}, h_{\theta}) = \frac{1}{m}\sum_{i=1}^m \left( \theta^T\cdot x^{(i)} -y^{(i)}\right)^2$
-

m m $m$ 训练集中的实例数
-

X \in R^{m \times (n + 1)}

$\mathbf{X}\in R^{m\times (n+1)}$ ，即，每一行对应一个实例

下面将 $MSE(\mathbf{X}, h_{\theta})$ 简记为 $MSE(\theta)$ 。在训练模型的过程中，只需要求得使得上述 MSE 代价函数取值最小的参数即可。换句话说，训练过程就是优化问题 $\min MSE(\theta)$ 的求解过程。一般来说，求解方法分为两种：
1. 直接求得解析解，
2. 利用迭代优化方法，逐渐将模型参数调整到能够在训练集上最小化目标函数

3. 标准方程 Normal Equation

min M S E (θ) = 1 m \sum i = 1 m (θ T \cdot x (i) - y (i)) 2 M S E (θ) = (X θ - y) T (X θ - y) = θ T X T X θ - 2 y T X θ + y T y l e t d M S E ( θ ) d θ = 0 t h e n θ * = (X T X) - 1 X T y

$\min MSE(\theta) = \frac{1}{m}\sum_{i=1}^m \left( \theta^T\cdot x^{(i)} -y^{(i)}\right)^2 \\ MSE(\theta) = (\mathbf{X}\theta-\mathbf{y})^T(\mathbf{X}\theta-\mathbf{y}) = \theta^T\mathbf{X}^T\mathbf{X}\theta - 2\mathbf{y}^T\mathbf{X}\theta+\mathbf{y}^T\mathbf{y} \\ let\ \ \frac{d\ MSE(\theta)}{d\ \theta} = 0 \\ then\ \ \theta^* = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$

$\theta^*$ ：是优化问题的最优解（使得代价函数取得最小的解）
$\mathbf{y}=[y^{(1)},y^{(2)},\cdots,y^{(m)}]^T$ 是目标值向量

计算复杂度

这里我们再来看一下利用闭式解（closed-form solution）求解的计算复杂度问题。

利用闭式解求解时，复杂度主要体现在矩阵求逆的部分。我们知道， $\mathbf{X}^T\mathbf{X}$ 是一个 $n\times n$ 的矩阵，而 $n$ 阶矩阵求逆的典型复杂度为 $O(n^{2.4})$ 至 $O(n^3)$ （具体与实现方法有关）。这就意味着，当特征维度增大一倍的时候，计算时间会粗略增长至原来的 $2^{2.4}=5.3$ 至 $2^3=8$ 倍。