讨论最简单的线性回归, 假设有两个变量Y和X,对他们的做二元的线性回归
$\hat{y} = \hat{\beta}_{0}+\hat{\beta}_{1}x$
对于每个x,能计算出预测值y,预测值与实际值的残差为$e_{i} = {y}_{i} - \hat{y}_{i}$
RSS为样本残差的平方和 $\sum_{i=1}^{n}{e_{i}^2}$
可以计算得出$\beta_{0}$和$\beta_{1}$使得RSS最小。
那么接下来的问题是,任何数据我们都可以用线性回归去做拟合,1)比如本身这些数据其实并不明显的线性关系 2)即使本身这些数据是来自一个线性关系,但是他们的采样会导致偏差。我们需要了解我们求得的模型的可靠性是多大?
假设Y和X服从的关系是 $y = \beta_{0}+\beta_{1}x + \epsilon$,其中$\epsilon$是噪音均值为0,且与x独立不相关,
如图上红色的线是没有噪音的Y和X的关系,它是不可观测的,而蓝色的线是在有噪音的情况下根据图中实际样本通过线性回归计算出来的。那我们如何认为我们得到的蓝线是对红线的准确估计呢?这就类似于我们用一个随机变量的有限数量的样本的平均值去估计这个随机变量的均值,我们怎么知道到底有多准确呢?
那么95%的置信度认为, $\hat{\beta}