简单线性回归
1.估计系数(estimating coefficient)
选择Beta0,Beta1使残差平方和RSS最小。
2.残差平方和(residual sum of squares)
RSS = e1^2 + e2^2 + ... + en^2
=(y1-Beta0-Beta1*x1)^2 + (y2-Beta0-Beta1*x2)^2 + ... + (yn-Beta0-Beta1*xn)^2
3.样本均值(sample mean μˆ)
样本均值和总体均值的含义不同,但一般来说,样本均值能提供对总体均值的良好估计。
①Q:单一的估计值u^偏离真值会有多远?
通过计算u^的标准误差(Standard Error, SE(u^))来回答这个问题!
Var(u^) = SE(uhead)^2 = sigma^2 / n
其中,sigma是变量Y的每个实现值yi的标准差。
该公式表明,估计值u^偏离真实值的偏差随着观测量n的增加而减少!
②残差标准误RSE
sigma是变量Y的每个实现值yi的标准差
对sigma^2的估计称为残差标准误(residual standard error,RSE),由公式 RSE = 根号(RSS / (n-2)) 所定义
③置信区间(confidence interval)
标准误差可用于计算置信区间。
95%置信区间被定义为一个取值范围:该范围有95%的概率会包括未知参数的真实值
Beta1的95%置信区间约为:
[Beta1^ - 2·SE(Beta1^) , Beta1^ +2·SE(Beta1^)]
Beta0的95%置信区间约为:
[Beta0^ - 2·SE(Beta0^) , Beta1^ +2·SE(Beta0^)]
4.假设检验
标准误差也可以用来对系数进行假设检验。最常用的假设检验包括对
(1)零假设: H0: X和Y之间没有关系
(2)备择假设: Ha: X和Y之间有一定关系
进行检验。
为了检验零假设,需要确定Beta1^(Beta的估计值)距离零是否足够远,从而能够确信Beta1是非零。
Q:多远是足够远呢?怎样才能拒绝零假设呢?
引入 t统计量:它测量了Beta1^偏离0的标准偏差。如果X和Y无关,则下式将服从自由度为n-2的 t 分布。
t = (Beta1^ - 0) / SE(Beta1^) (3.14)
假设Beta1 = 0,计算任意观测值大于等于|t|的概率就十分简单了,我们称这个概率为p值,p值可以解释如下:
一个很小的p值表示,在预测变量和响应变量之间的真实关系未知的情况下,不太可能完全由于偶然而观察到预测变量和响应变量之间的强相关。
a small p-value indicates that it is unlikely to observe such a substantial association between the pre- dictor and the response due to chance, in the absence of any real association between the predictor and the response.
如果p值足够小,我们便拒绝零假设,即声明X和Y有关系。
典型的拒绝零假设的临界p值是5%或1%,当n=30,这两个p值对应的t统计量分别为 2 和 2.75。
5.评价模型的准确性
量化模型拟合数据的程度,通常用两个量:残差标准误RSE 和 R^2统计量。
①残差标准误RSE: 对模型 失拟(lack of fit) 的度量
是对epis的标准偏差的估计。大体而已,它是响应值会偏离真正的回归直线的平均值。
The RSE provides an absolute measure of lack of fit of the model (3.5) to the data. But since it is measured in the units of Y , it is not always clear what constitutes a good RSE.
②R^2 统计量(R^2 statistic):衡量X和Y的线性关系
R^2 = 1 - RSS/TSS
其中,TSS(total sum of squares)是总平方和,yi - y均之和,RSS为 yi - yihead之和。
R^2测量的是Y的变异中能被X解释的部分所占比例(proportion of variability in Y that can be explained using X)。值域为[0,1]。值越接近1,说明回归可以解释响应变量的大部分变异;值越接近0说明回归没有解释太多响应变量的变异,这可能因为线性模型是错误的,也可能因为固有误差项epsi^2较大。
注:相关性Cor(X,Y)可以代替R^2评估线性模型