4.ESL笔记：线性回归方法（1）——线性模型&最小二乘

本文链接：https://blog.csdn.net/qq_27262673/article/details/79588304

本文介绍了线性模型的基本概念，强调其在机器学习和统计中的重要性。通过最小二乘法，文章详细阐述了如何寻找最佳线性拟合，包括残差平方和的计算和几何解释。文中还探讨了线性模型的优化问题，如矩阵的秩和正定性，以及在数据处理中的注意事项。

摘要由CSDN通过智能技术生成

（注：上一篇读书笔记对应翻译到原文的章节2.5。笔者自己翻阅了一下2.6~2.9节的内容，觉得有点絮叨，而且翻译起来也不够直白清爽，所以打算跳过了。这一篇从原书第三章开始，阐述线性模型。笔者自己看完原书对应的内容觉得对最小二乘有更深的认识了，希望看到这篇文章的别人也如此。）

简介

线性模型一般假设回归模型 $E(Y|X)$ 是输入 $X_1,...,X_p$ 的线性函数。线性模型在电脑诞生之前就已经存在了。他们非常简单，而且解释起输入与输出的关系也比较明了，有时它们的表现甚至会比一些非线性模型更好。这一章主要讲解用于回归的线性模型。大家会发现，很多非线性模型都是线性模型的适当延伸。

线性回归模型和最小二乘法

像之前讨论过的，假设我们有一个输入向量 $X^T=(X_1,X_2,...,X_p)$ ，然后想要预测一个实数输出 $Y$ 。线性模型一般具有如下的形式：

f (X) = β_{0} + \sum_{j = 1}^{p} X_{j} β_{j}

$f(X)=\beta_0+\sum_{j=1}^pX_j\beta_j$

当我们用线性模型解决问题的时候，我们一般潜意识有这么两种可能的假设：要么假设回归函数 $E(Y|X)$ 是线性的，要么假设线性模型是对我们问题一个较好的近似。 $\beta_j$ 在这里属于未知参数，输入 $X_j$ 则可以来源于很多地方，比如：

量化了的输入值；
量化输入值的变形，比如log、平方根、平方等；
编码过的定性输入；
原始输入值的组合，比如 $X_3=X_1 X_2$ 。

但始终不变的一点是：模型对于任何一个输入值都是线性的。

一般，当我们有一组训练数据来寻找合适的 $\beta$ 之后，我们需要有一个估计方法来衡量好坏。这里又要讲到最小二乘法了。令 $\beta=(\beta_0,\beta_1,...,\beta_p)^T$ ，那么最小二乘的残差平方和可以写成：

R S S (β) = \sum i = 1 N (y i - f (x i)) 2 = \sum i = 1 N (y i - β 0 - \sum j = 1 p x i j β j) 2

$\begin{equation*} \begin{split} RSS(\beta)&=\sum_{i=1}^N(y_i-f(x_i))^2\\ &=\sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^px_{ij}\beta_j)^2\\ \end{split} \end{equation*}$

从统计学角度而言，如果我们的训练数据