(注:上一篇读书笔记对应翻译到原文的章节2.5。笔者自己翻阅了一下2.6~2.9节的内容,觉得有点絮叨,而且翻译起来也不够直白清爽,所以打算跳过了。这一篇从原书第三章开始,阐述线性模型。笔者自己看完原书对应的内容觉得对最小二乘有更深的认识了,希望看到这篇文章的别人也如此。)
简介
线性模型一般假设回归模型 E(Y|X) E ( Y | X ) 是输入 X1,...,Xp X 1 , . . . , X p 的线性函数。线性模型在电脑诞生之前就已经存在了。他们非常简单,而且解释起输入与输出的关系也比较明了,有时它们的表现甚至会比一些非线性模型更好。这一章主要讲解用于回归的线性模型。大家会发现,很多非线性模型都是线性模型的适当延伸。
线性回归模型和最小二乘法
像之前讨论过的,假设我们有一个输入向量 XT=(X1,X2,...,Xp) X T = ( X 1 , X 2 , . . . , X p ) ,然后想要预测一个实数输出 Y Y 。线性模型一般具有如下的形式:
当我们用线性模型解决问题的时候,我们一般潜意识有这么两种可能的假设:要么假设回归函数 E(Y|X) E ( Y | X ) 是线性的,要么假设线性模型是对我们问题一个较好的近似。 βj β j 在这里属于未知参数,输入 Xj X j 则可以来源于很多地方,比如:
- 量化了的输入值;
- 量化输入值的变形,比如log、平方根、平方等;
- 编码过的定性输入;
- 原始输入值的组合,比如 X3=X1X2 X 3 = X 1 X 2 。
但始终不变的一点是:模型对于任何一个输入值都是线性的。
一般,当我们有一组训练数据来寻找合适的 β β 之后,我们需要有一个估计方法来衡量好坏。这里又要讲到最小二乘法了。令 β=(β0,β1,...,βp)T β = ( β 0 , β 1 , . . . , β p ) T ,那么最小二乘的残差平方和可以写成:
从统计学角度而言,如果我们的训练数据