predict函数在回归分析中的应用

最新推荐文章于 2024-09-22 22:22:12 发布

hsdcc217

最新推荐文章于 2024-09-22 22:22:12 发布

阅读量7w

点赞数 23

原文地址：
http://www.cnblogs.com/luosha/archive/2012/06/30/2571542.html

一元线形回归模型：有变量x,y。假设有关系y=c+bx+e,其中c+bx 是y随x变化的部分，e是随机误差。可以很容易的用函数lm()求出回归参数b,c并作相应的假设检验，如：

x<-c(0.10, 0.11, 0.12, 0.13, 0.14, 0.15,0.16, 0.17, 0.18, 0.20, 0.21, 0.23)
y<-c(42.0, 43.5, 45.0, 45.5, 45.0, 47.5,49.0, 53.0, 50.0, 55.0, 55.0, 60.0)
lm.sol<-lm(y ~ 1+x)
summary(lm.sol)

仅列出部分返回结果：

Residuals:

  Min       1Q   Median    3Q     Max

-2.0431  -0.7056  0.1694  0.6633  2.2653

Coefficients:

            Estimate  Std. Error  t value   Pr(>|t|)   
(Intercept)   28.493    1.580     18.04  5.88e-09 ***

    x         130.835    9.683    13.51  9.50e-08***

在我们的输入中，关键是lm.sol<-lm(y ~ 1+x)的调用，这里可以看到，lm使用了参数y~1+x,即表示我们使用的是模型y=c+bx+e (1表示常数项)

然后我们使用summary查看了lm返回的结果。在Residuals:中，我们可以看到的是一些关于残差的信息：最小最大值，4分位数等。Coefficients:中则是最为关键的对c和b的相关估计。其中Estimate是与b,c值的估计，Std. Error 则是回归参数b和c的标准差：sd(b), sd(c)。剩下的两个参数则是对回归参数的假设检验： t value是对b,c进行假设检验的t值，以及P-值(用来与显著性水平比较决定是否接受该阿假设检验)Pr(>|t|)。最后我们还可以看到3个* 号，这表明x和y有非常显著的线性关系(*可以有0-3个，越多则线性关系越显著)。

多元线形回归的计算也是这样，我们只要在加入一行数据x2，然后把lm的参数改为y ~ 1+x+x2，就可以得到模型y=d+cx2+bx+e的计算结果。其中返回值的意义和上面基本一致。

至此，我们就可以用R建立起一个简单的线形模型，接下来，我们就要用这个模型去对新的x进行预测，预测y的值与置信区间。

接着上面的程序，我们先建立要预测的数据集：

point<-data.frame(x=0.24)

然后用函数predict进行预测

predict(lm.sol,point,interval="prediction",level=0.95)

返回结果

       fit       lwr         upr

  1 59.89318   56.36215    63.42421

分别表示了y的预测值和上下界。

在函数predict中，参数lm.sol是之前建立的线形模型，point是要预测的点，参数interval=”prediction”表示要求给出预测的区间(上下界)，level则是该区间的预测水平。

下面给出一个多元线形回归的完整程序：（不显示结果）

y<-c(162,120,223,131,67,167,81,192,116,55,252,232,144,103,212)

x1<-c(274,180,375,205,86,265,98,330,195,53,430,372,236,157,370)

x2<-c(2450,3250,3802,2838,2347,3782,3008,2450,2137,2560,4020,4427,2660,2088,2605)

lm.sol<-lm(y~1+x1+x2)

ex<-data.frame(x1=200,x2=3000)

predict(lm.sol,ex,interval="prediction",level=0.95)