判定系数推导 — Coefficient of Determination Derivation

最新推荐文章于 2024-06-28 09:55:05 发布

_rho

最新推荐文章于 2024-06-28 09:55:05 发布

阅读量1.3w

点赞数 6

分类专栏：机器学习文章标签：机器学习多元线性回归判定系数

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

通过线性回归得到回归参数后，可以通过计算判定系数 $R^2$ 来评估回归函数的拟合优度。判定系数 $R^2$ 定义如下：
$R^2 = \frac {SSR}{SST} = 1 - \frac {SSE}{SST}$
其中， $\sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2$ ， $\sum\limits_{i=1}^n (y_i - \hat y_i)^2$ 和 $\sum\limits_{i=1}^n (y_i - \bar y)^2$ 。 $R^2$ 越接近1，回归函数的拟合优度越大。上式可改写成 $S S T = S S R + S S E$ ，即：
$\sum\limits_{i=1}^n (y_i - \bar y)^2 = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2$

为了理解 $R^2$ ，我们有必要先回顾一下线性回归的通式：
$\begin{cases} \hat y_i = f(x) = \theta_0 + \sum\limits_{j=1}^n \theta_j x_i^j \\ y_i = \hat y_i + \epsilon_i \end{cases}$
其中， $y_i$ 实际上由 $\hat y_i$ 和 $\epsilon_i$ 组成， $\hat y_i$ 随 $x_i$ 变化而变化。令 $x_i^0 = 1$ ， $\hat y_i = \theta_0 + \sum\limits_{j=1}^n \theta_j x_i^j$ 可被改写成 $\hat y_i = \theta^Tx_i$ 。将上式改写成向量和矩阵的形式：
$\begin{cases} \begin{bmatrix} 1 & x_1^1 & x_1^2 & \dots & x_1^n \\ 1 & x_2^1 & x_2^2 & \dots & x_2^n \\ \vdots \\ 1 & x_m^1 & x_m^2 & \dots & x_m^n \\ \end{bmatrix} \begin{bmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{bmatrix} = \begin{bmatrix} \hat y_1 \\ \hat y_2 \\ \vdots \\ \hat y_m \end{bmatrix} \\ \\ \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix} = \begin{bmatrix} \hat y_1 \\ \hat y_2 \\ \vdots \\ \hat y_m \end{bmatrix} + \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_m \end{bmatrix} \end{cases}$
当 $\theta \neq \mathbf 0$ 时， $\hat Y$ 是 $X$ 的一个线性组合，即 $\hat Y$ 存在于由 $X$ 的列向量所展开的列空间中。对于一次幂的线形回归， $X$ 的列空间即是一个超平面， $\hat Y$ 是存在于面内的一个向量（即 $Y$ 在面上的投影）。为了使得残差最小化， $\epsilon$ 是 $Y$ 垂直于面方向上的投影。在三维中的几何意义如下图（文中 $\theta$ 即图中 $\beta$ ，图中 $X_i$ 表示列向量，图取自）：

在这里插入图片描述

因为 $\epsilon$ 垂直于 $X$ 的列空间，所以 $\epsilon$ 垂直于 $X$ 的所有列向量，即 $X^T \epsilon = \mathbf 0$ 。又因 $\epsilon = Y - X\theta$ ，得：
$X^T(Y - X\theta) = \mathbf 0 \\ X^TY = X^TX\theta \\ \theta = (X^TX)^{-1}X^TY \\ \hat Y = X\theta = X(X^TX)^{-1}X^TY$
根据 $\hat Y = X\theta = X(X^TX)^{-1}X^TY$ ，我们得到了投影矩阵 $P = X(X^TX)^{-1}X^T$ 。 $\hat Y = PY$ ，投影矩阵 $P$ 乘以 $Y$ 得到了 $Y$ 属于 $X$ 列空间的分量 $\hat Y$ 。投影矩阵有两个性质需要了解：

$P$ 是对称矩阵；
$P^T = (X(X^TX)^{-1}X^T)^T = X((X^TX)^{-1})^TX^T = X((X^TX)^T)^{-1}X^T = X(X^TX)^{-1}X^T = P$
$P^2 = P$ 。
$P^2 = P^TP = X(X^TX)^{-1}X^TX(X^TX)^{-1}X^T = X(X^TX)^{-1} \overbrace{X^TX(X^TX)^{-1}}X^T = X(X^TX)^{-1}X^T = P$

现在，我们可以开始推导判定系数公示 $S S T = S S R + S S E$ 了。如下（ $\mathbf 1 \in R^m$ ）：
$\begin{aligned} & SST = \sum\limits_{i=1}^n (y_i - \bar y)^2 = \sum\limits_{i=1}^n [(y_i - \hat y_i) + (\hat y_i - \bar y)]^2 \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + \sum\limits_{i=1}^n 2(y_i - \hat y_i)(\hat y_i - \bar y) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + \sum\limits_{i=1}^n 2(y_i - \hat y_i)(\hat y_i - \bar y) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon(\hat Y -\bar Y\mathbf 1) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon(PY -\bar Y\mathbf 1) \\ & = \sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon^T\hat Y - 2\bar Y\epsilon^T\mathbf 1 \end{aligned}$
因为 $\epsilon$ 垂直于 $X$ 的列空间，且 $\hat Y$ 属于 $X$ 的列空间，所以 $\epsilon^T \hat Y = 0$ ；又因为 $\mathbf 1 = x_i^0 \in R^m$ （ $\mathbf 1$ 属于 $X$ 的列空间），所以 $\epsilon^T \mathbf 1 = 0$ 。因此：
$\sum\limits_{i=1}^n (\hat y_i - \bar y_i)^2 + \sum\limits_{i=1}^n (y_i - \hat y_i)^2 + 2\epsilon^T\hat Y - 2\bar Y\epsilon^T\mathbf 1 = SSR + SSE$