计算机线性回归实验报告,线性回归分析实验报告.doc

253b171540df25e1b84436cbe50dfc72.gif线性回归分析实验报告.doc

1数据分析课程实验报告实验名称 线性回归分析 一、实验目的1、通过实验掌握线性回归模型拟合及参数估计2、获得处理统计推断与预测的能力3、学会残差分析、掌握 Box-Cox 变换的方法4、学会最优回归方程的选取5、进一步熟悉 SAS 的应用二、用文字或图表记录实验过程和结果2.4 解sas程序为data two_4; y x1 x2;CARDS;省略了数据;RUN;PROC REG DATAtwo_4;model yx1 x2/I;OUTPUT OUTa PPREDICTED RRESIDUAL HH STUDENTSTUDENT;RUN;PROC CAPABILITY DATAa GRAPHICS;QQPLOT;RUN;PROC GPLOT DATAa;PLOT RESIDUAL*PREDICTED RESIDUAL*x1 RESIDUAL*x2;SYMBOL VALUEDOT INONE;RUN;PROC IML;N15;USE two_4; READ ALL VARy x1 x2 INTO M;XM,2M,3;X2M,3;YM,1;PYXX2;CREATE RESOLVE VARY X X2;APPEND FROM P;QUIT;2PROC REG DATARESOLVE;MODEL YX X2;RUN;PROC PRINT;RUN;(1)参数估计的 sas 输出结果为Parameter EstimatesParameter StandardVariable DF Estimate Error t Value Pr |t|Intercept 1 3.45261 2.43065 1.42 0.1809x1 1 0.49600 0.00605 81.92 插入方差分析表Analysis of VarianceSum of MeanSource DF Squares Square F Value Pr FModel 2 53845 26922 5679.47 F 0)中参数估计值可求得12t的置信度为 95的置信区间为分别为012、 、3.45261-2.43065*0.128 即3.1414868,3.763733200.49600-0.00605*0.128 即(0.37405,0.4967744)10.00920-0.00096811*0.128 即(0.00907608192,0.00932391808)2(4) 参数估计的 sas 输出结果为Parameter Estimates3Parameter StandardVariable DF Estimate Error t Value Pr |t|Intercept 1 3.45261 2.43065 1.42 0.1809x1 1 0.49600 0.00605 81.92 FModel 2 52294 26147 195.15 Obs y x1 x2 PREDICTED RESIDUAL STUDENT H1 162 274 2450 161.896 0.10428 0.05194 0.149742 120 180 3254 122.667 -2.66732 -1.31981 0.138373 223 375 3802 224.429 -1.42938 -0.72773 0.186134 131 205 2838 131.241 -0.24062 -0.11483 0.073745 67 86 2347 67.699 -0.69928 -0.35782 0.194326 169 265 3782 169.685 -0.68486 -0.34674 0.177017 81 98 3008 79.732 1.26806 0.66641 0.236178 192 330 2450 189.672 2.32800 1.22833 0.242249 116 195 2137 119.832 -3.83202 -1.92482 0.1638810 55 53 2560 53.291 1.70948 0.91733 0.2674011 252 430 4020 253.715 -1.71506 -0.92966 0.2820312 232 372 4427 228.691 3.30921 1.89100 0.3539613 144 236 2660 144.979 -0.97934 -0.46960 0.0825014 103 157 2088 100.533 2.46693 1.24299 0.1690615 212 370 2605 210.938 1.06194 0.57619 0.28343分析正态性的频率检验通过表中显示的数据,可知学生化残差STUDENT 列中有落入(-1,1)区间的有 9/150.6 即 60;落入(-1.5,1.5)区间的有 13/150.867 即 86.7;落入(-2.2)区间内的有 15/151 即 100。所以,学生化残差落在上述各区间内的频率与标准正态分布的相应概率相差不大,因此,模型误差项符合服从正态分布的假定。正态QQ图检验通过SAS系统中capacity过程可以直接做出正态QQ图,对于中求得的学生化残差,其正态QQ图如图所示5Studentized Residual-2-1012Normal Quantiles-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0由图可知,图中的点大致在一条直线上,因此说明题中线性回归模型中误差项正态分布的假定是合理的。残差图分析通过SAS系统的prec gplot过程分别输出了残差与Y拟合值、残差与自变量X 1,残差与自变量X 1的残差图,如下图Residual-4-3-2-101234Predicted Value of y0 100 200 300 Residual-4-3-2-101234x10 100 200 300 400 5006Residual-4-3-2-101234x22000 3000 4000 5000由图可知(1)在以因变量 y 为横坐标的残差图中,图中个点大致在一个水平的带状区域内,而且,没有呈现出明显的趋势,说明了因变量拟合值向量与残差向量不相关,也就是说 Y 与相互独立,此时,认为假设是合理的;(2)在以自变量 X1、 X1量为横坐标的残差图中,残差没有随自变量变化而变化的趋势,说明了假设是合理的。26 解SAS源程序为DATA two_6; x1 x2 y ;CARDSPROC REG DATAtwo_6;MODEL yx1 x2;OUTPUT OUTb PPREDICTED RRESIDUAL HH STUDENTSTUDENT;PROC CAPABILITY DATAb GRAPHICS;QQPLOT;RUN;PROC GPLOT DATAb;PLOT RESIDUAL*PREDICTED RESIDUAL*x1 RESIDUAL*x2;SYMBOL VDOT INONE;RUN;PROC IML;N31;PI1;USE two_6; READ ALL VARx1 x2 y INTO M;YM ,3;XJN,1,1M,12;AX*INVX*X*X;DO I1 to N;PIPIMI,3;7END;TEMPPI1/N;DO LAMDA-0.5 to 0.5 by 0.01;ZYLAMDA-JN,1,1/LAMDATEMPLAMDA-1;SSEZ*IN-A*Z;LASLASLAMDASSE;END;Z0TEMPLOGY;SSE0Z0*IN-A*Z0;KLAS中求得的学生化残差,其正态 QQ 图如图所示9Studentized Residual-2-10123Normal Quantiles-3 -2 -1 0 1 2 3由学生化残差的正态QQ图可知,图中的线性关系并不是非常的明显,不过图中大多数点大致在一条直线上,但是还有一些点偏离了直线,由此说明题中线性回归模型中误差项正态分布的假定是基本上是合理的,但还可以做出完善。 残差图分析通过SAS系统的prec gplot过程分别输出了残差与Y拟合值、残差与自变量X1,残差与自变量X 1的残差图,如下图Residual-7-6-5-4-3-2-1012345678Predicted Value of y0 10 20 30 40 50 60 70Residual-7-6-5-4-3-2-1012345678x18 9 10 11 12 13 14 15 16 17 18 19 20 2110Residual-7-6-5-4-3-2-1012345678x260 70 80 90由图可知(1)在以因变量 y 为横坐标的残差图中,图形大致形成了一个 U 型,说明回归函数可能是非线性的,可能需要引进某个或者某些自变量的二次项或者交叉乘积;(2)在以自变量 X1、 X2量为横坐标的残差图中,根据图形的显示,说明了回归函数关于基本 X2基本上呈现线性,但是图像中显示的残差与 X1的关系并不是很好,说明回归函数关于 X1可能不是线性的,有可能要引进 X1的平方项或者交叉项。得到结论需要做 Box-Cox 变换。2做Box-Cox变换,得到( )矩阵为 ,zLAS-0.5 477.54855-0.49 468.1904-0.48 458.99203-0.47 449.95164-0.46 441.06743-0.45 432.33767-0.44 423.76066-0.43 415.3347-0.42 407.05816-0.41 398.92943-0.4 390.94692-0.39 383.10909-0.38 375.41442-0.37 367.86142-0.36 360.44864-0.35 353.17465-0.34 346.03807-0.33 339.03751-0.32 332.17166-0.31 325.43919-0.3 318.83884-0.29 312.3693611-0.28 306.02953-0.27 299.81815-0.26 293.73406-0.25 287.77612-0.24 281.94324-0.23 276.23432-0.22 270.64831-0.21 265.18419-0.2 259.84096-0.19 254.61763-0.18 249.51328-0.17 244.52696-0.16 239.6578-0.15 234.90491-0.14 230.26746-0.13 225.74462-0.12 221.33561-0.11 217.03965-0.1 212.85601-0.09 208.78396-0.08 204.82282-0.07 200.97191-0.06 197.23059-0.05 193.59824-0.04 190.07426-0.03 186.65809-0.02 183.34918-0.01 180.147013.088E-16 880.284760.01 174.06089LAS0.02 171.176030.03 168.396050.04 165.720550.05 163.149160.06 160.681510.07 158.317270.08 156.056140.09 153.897830.1 151.842080.11 149.888650.12 148.03732120.13 146.28790.14 144.640230.15 143.094170.16 141.649580.17 140.306380.18 139.064490.19 137.923870.2 136.884470.21 135.946310.22 135.10940.23 134.37380.24 133.739550.25 133.206770.26 132.775570.27 132.446090.28 132.218490.29 132.092960.3 132.069720.31 132.149010.32 132.331080.33 132.616230.34 133.004770.35 133.497040.36 134.09340.37 134.794240.38 135.599970.39 136.511030.4 137.527880.41 138.651020.42 139.880970.43 141.218270.44 142.663480.45 144.217210.46 145.880070.47 147.652730.48 149.535850.49 151.530150.5 153.63636同时得到在 不为零时, 的最小值为MINSSE 132.06972 此时 为MINLAMDA0.3,而z 当 0时, 177.05107 ,所以,最终 的最小值为 MINSSE 132.06972, 为zzMINLAMDA0.3。通过 SAS 输出有关残差的结果如下13Obs X1 X2 Z PREDICTED RESIDUAL STUDENT H1 8.3 70 3.37678 3.41103 -0.03425 -0.16627 0.115832 8.6 65 3.37678 3.34076 0.03602 0.17807 0.147213 8.8 63 3.35717 3.34568 0.01149 0.05782 0.176864 10.5 72 4.38160 4.39699 -0.01540 -0.07247 0.059195 10.7 81 4.70426 4.82901 -0.12475 -0.60725 0.120666 10.8 83 4.81781 4.94795 -0.13014 -0.64652 0.155757 11.0 66 4.26671 4.37047 -0.10376 -0.50341 0.114808 11.0 75 4.62643 4.71991 -0.09348 -0.43813 0.051489 11.1 80 5.16065 4.95533 0.20532 0.98358 0.0920110 11.2 75 4.84255 4.80248 0.04007 0.18745 0.0479711 11.3 79 5.33675 4.99907 0.33768 1.60168 0.0738312 11.4 76 4.97559 4.92388 0.05170 0.24191 0.0480913 11.4 76 5.02275 4.92388 0.09887 0.46258 0.0480914 11.7 69 5.01102 4.77596 0.23506 1.11431 0.0727615 12.0 75 4.74253 5.13278 -0.39025 -1.81591 0.0376516 12.9 74 5.11526 5.46553 -0.35027 -1.62819 0.0356717 12.9 85 6.25082 5.89262 0.35820 1.75432 0.1313118 13.3 86 5.66587 6.09660 -0.43073 -2.12448 0.1434619 13.7 71 5.49459 5.67935 -0.18475 -0.87296 0.0666620 13.8 64 5.41124 5.44885 -0.03761 -0.19330 0.2112421 14.0 78 6.30994 6.07499 0.23495 1.09221 0.0358122 14.2 80 6.06815 6.23522 -0.16707 -0.78055 0.0454223 14.5 74 6.45820 6.12612 0.33208 1.55521 0.0499524 16.0 72 6.61702 6.66777 -0.05075 -0.24577 0.1114325 16.3 77 6.93977 6.98576 -0.04599 -0.21763 0.0693126 17.3 81 7.78224 7.55394 0.22830 1.09149 0.0884227 17.5 82 7.80026 7.67534 0.12492 0.59976 0.0960328 17.9 80 7.95369 7.76283 0.19085 0.92162 0.1064229 18.0 80 7.95369 7.80412 0.14957 0.72363 0.1098330 18.0 80 7.54146 7.80412 -0.26266 -1.27081 0.1098331 20.6 87 8.93614 9.14936 -0.21322 -1.10708 0.22706分析正态性的频率检验通过表中显示的数据,可知学生化残差STUDENT 列中有落入(-1,1)区间的有 20/31 0.645 即 64.5;落入(-1.5,1.5)区间的有 25/310.806 即 80.6;落入(-2.2)区间内的有 30/310.96896.8。所以,变换后学生化残差落入(-1,1)之间的更多了,而学生化残差落入(-1.5,1.5)及(-2.2)区间的个数没有变化,这样使得与标准正态分布的相应概率更加相近,因此,从正态性频率检验可以知道模型误差项符合服从正态分布的假定。正态 QQ 图检验通过 SAS 系统中 capacity 过程可以直接做出正态 QQ 图,对于中求得的学生化残差,其正态 QQ 图如图所示14Studentized Residual-2-10123Normal Quantiles-3 -2 -1 0 1 2 3由学生化残差的正态QQ图可知,图中各点基本位于同一条直线上,线性关系非常的明显,由此说明题中线性回归模型中误差项正态分布的假定是合理的。 残差图分析通过SAS系统的prec gplot过程分别输出了残差与Z拟合值、残差与自变量X 1,残差与自变量X 1的残差图,如下图Residual-0.5-0.4-0.3-0.2-0.10.00.10.20.30.4Predicted Value of Z3 4 5 6 7 8 9 1015Residual-0.5-0.4-0.3-0.2-0.10.00.10.20.30.4X18 9 10 11 12 13 14 15 16 17 18 19 20 21Residual-0.5-0.4-0.3-0.2-0.10.00.10.20.30.4X260 70 80 90由图可知(1)在以因变量 Z 为横坐标的残差图中,图中个点大致在一个水平的带状区域内,而且,没有呈现出明显的趋势,说明了因变量拟合值向量与残差向量不相关,也就是说经过 Box-Cox 变换后,Z 与 相互独立,此时,认为假设是合理的;(2)在以自变量 X1、 X1量为横坐标的残差图中,残差没有随自变量变化而变化的趋势,说明了假设是合理的。结论由此说明,Box-Cox 变换的效果非常好2.7解SAS源程序为16DATA two_6; x1 x2 y ;CARDS;省略了数据;PROC IML;N31;USE two_6; READ ALL VARx1 x2 y INTO M;X1M,1M,1;X2M,2;YM,3;PX1X2Y;CREATE RESOLVE VARX1 X2 Y;APPEND FROM P;QUIT;PROC REG DATARESOLVE;MODEL YX1 X2;OUTPUT OUTb PPREDICTED RRESIDUAL HH STUDENTSTUDENT;RUN;PROC CAPABILITY DATAb GRAPHICS;QQPLOT;RUN;PROC GPLOT DATAb;PLOT RESIDUAL*PREDICTED RESIDUAL*X1 RESIDUAL*X2;SYMBOL VDOT INONE;RUN;PROC PRINT;RUN;通过 SAS 输出有关残差的结果如下Obs X1 X2 Y PREDICTED RESIDUAL STUDENT H1 68.89 70 10.3 8.2634 2.03656 0.78334 0.092662 73.96 65 10.3 7.4398 2.86017 1.12859 0.137833 77.44 63 10.2 7.3617 2.83834 1.14310 0.172364 110.25 72 16.4 16.1013 0.29870 0.11274 0.057675 114.49 81 18.8 19.8968 -1.09683 -0.42760 0.116766 116.64 83 19.7 20.9493 -1.24929 -0.49700 0.151817 121.00 66 15.6 15.9204 -0.32043 -0.12477 0.114638 121.00 75 18.2 18.9822 -0.78222 -0.29428 0.051559 123.21 80 22.6 21.0657 1.53435 0.58986 0.0917110 125.44 75 19.9 19.7506 0.14943 0.05613 0.0487811 127.69 79 24.2 21.5007 2.69927 1.02820 0.0748412 129.96 76 21.0 20.8730 0.12703 0.04774 0.0495313 129.96 76 21.4 20.8730 0.52703 0.19806 0.049531714 136.89 69 21.3 19.6908 1.60916 0.61218 0.0725015 144.00 75 19.1 22.9624 -3.86243 -1.44405 0.0396416 166.41 74 22.2 26.5003 -4.30035 -1.60445 0.0356617 166.41 85 33.8 30.2425 3.55747 1.40343 0.1374618 176.89 86 27.4 32.3963 -4.99632 -1.98548 0.1499519 187.69 71 25.7 29.1623 -3.46232 -1.30913 0.0610420 190.44 64 24.9 27.2568 -2.35683 -0.96368 0.1970921 196.00 78 34.5 32.9818 1.51822 0.56643 0.0356022 201.64 80 31.7 34.6382 -2.93819 -1.10226 0.0461823 210.25 74 36.3 34.0870 2.21301 0.82942 0.0443724 256.00 72 38.3 41.3238 -3.02376 -1.16879 0.1015425 265.69 77 42.6 44.7016 -2.10163 -0.79584 0.0638726 299.29 81 55.4 51.8770 3.52300 1.35170 0.0881127 306.25 82 55.7 53.4216 2.27835 0.87846 0.0970328 320.41 80 58.3 55.1917 3.10832 1.20755 0.1105629 324.00 80 58.3 55.8129 2.48706 0.96862 0.1150030 324.00 80 51.5 55.8129 -4.31294 -1.67974 0.1150031 424.36 87 77.0 75.5619 1.43808 0.62083 0.27971分析正态性的频率检验1、通过表中显示的数据,可知学生化残差STUDENT 列中有落入(-1,1)区间的有18/310.581 即 58.1;落入(-1.5,1.5)区间的有 28/310.903 即 90.3;落入(-2.2)区间内的有 31/311100。所以,学生化残差落在上述各区间内的频率与标准正态分布的相应概率相近,因此,从正态性频率检验可以知道模型误差项符合服从正态分布的假定。2、与上一题未作变换钱相比较落入(-1,1)区间的数据个数没有改变,但落入(-1.5,1.5)区间以及(-2.2)区间内的数据个数有了明显的改善,由此可知,此模型拟合的更好。正态 QQ 图检验通过 SAS 系统中 capacity 过程可以直接做出正态 QQ 图,对于中求得的学生化残差,其正态 QQ 图如图所示Studentized Residual-2.0-1.5-1.0-0.50.00.51.01.5Normal Quantiles-3 -2 -1 0 1 2 318由学生化残差的正态QQ图可知,图中的线性关系并不是很好,有一些点偏离了直线,由此说明题中线性回归模型中误差项正态分布的假定是基本上是合理的。 残差图分析通过SAS系统的prec gplot过程分别输出了残差与Y拟合值、残差与自变量X1,残差与自变量X 1的残差图,如下图Residual-5-4-3-2-101234Predicted Value of Y0 10 20 30 40 50 60 70 80Residual-5-4-3-2-101234X10 100 200 300 400 50019Residual-5-4-3-2-101234X260 70 80 90由图可知1、 (1)在以因变量y为横坐标的残差图中,图形大致形成了一个U型,但并不是很明显,说明回归函数是非线性的,可能需要引进某个或者某些自变量的二次项或者交叉乘积;(2)在以自变量X 1、 X2量为横坐标的残差图中,根据图形的显示,说明了回归函数关于基本X 2基本上呈现线性,但是图像中显示的残差与X 1可能不是线性的,有可能要引进X 1的平方项或者交叉项,由此说明了此模型拟合的效果是不错的。2、与上题对比可知在本题中拟合的模型的效果要由于上题变换前的模型效果。2.9 解SAS源程序为DATA two_9; X1 X2 X3 Y ;CARDSPROC REG DATAtwo_9;MODEL YX1 X2 X3;OUTPUT OUTb PPREDICTED RRESIDUAL HH STUDENTSTUDENT;PROC CAPABILITY DATAb GRAPHICS;QQPLOT;RUN;PROC GPLOT DATAb;PLOT RESIDUAL*PREDICTED RESIDUAL*X1 RESIDUAL*X2 RESIDUAL*X3;SYMBOL VDOT INONE;RUN;PROC REG DATAtwo_9;MODEL YX1 X2 X3/SELECTIONADJRSQ;20RUN;PROC REG DATAtwo_9;MODEL YX1 X2 X3/SELECTIONCP;RUN;PROC REG DATAtwo_9;MODEL YX1;OUTPUT OUTa1 PRESSPRESS;RUN;PROC MEANS USS DATAa1;VAR PRESS;RUN;PROC REG DATAa1;MODEL YX1 X2;RUN;PROC REG DATAtwo_9;MODEL YX2;OUTPUT OUTa2 PRESSPRESS;RUN;PROC MEANS USS DATAa2;VAR PRESS;RUN;PROC REG DATAtwo_9;MODEL YX3;OUTPUT OUTa3 PRESSPRESS;RUN;PROC MEANS USS DATAa3;VAR PRESS;RUN;PROC REG DATAtwo_9;MODEL YX1 X2;OUTPUT OUTa4 PRESSPRESS PPREDICTED RRESIDUAL HH STUDENTSTUDENT;PROC CAPABILITY DATAa4 GRAPHICS;QQPLOT;RUN;PROC GPLOT DATAa4;PLOT RESIDUAL*PREDICTED RESIDUAL*X1 RESIDUAL*X2;SYMBOL VDOT INONE;RUN;RUN;PROC MEANS USS DATAa4;VAR PRESS;RUN;PROC REG DATAtwo_9;MODEL YX1 X3;21OUTPUT OUTa5 PRESSPRESS;RUN;PROC MEANS USS DATAa5;VAR PRESS;RUN;PROC REG DATAtwo_9;MODEL YX2 X3;OUTPUT OUTa6 PRESSPRESS;RUN;PROC MEANS USS DATAa6;VAR PRESS;RUN;PROC REG DATAtwo_9;MODEL YX1 X2 X3;OUTPUT OUTa7 PRESSPRESS;RUN;PROC MEANS USS DATAa7;VAR PRESS;RUN;PROC REG DATAtwo_9;MODEL YX1 X2 X3/SELECTIONSTEPWISE SLENTRY0.10 SLSTAY0.10;RUN;PROC PRINT;RUN;通过 SAS 输出有关残差的结果如下Obs X1 X2 X3 Y PREDICTED RESIDUAL STUDENT H1 50 51 2.3 48 48.0132 -0.0132 -0.00139 0.127862 36 46 2.3 57 71.1062 -14.1062 -1.46088 0.096533 40 48 2.2 66 63.8857 2.1143 0.21558 0.067984 41 44 1.8 70 66.9826 3.0174 0.33089 0.194185 28 43 1.8 89 84.4578 4.5422 0.50016 0.200856 49 54 2.9 36 46.0057 -10.0057 -1.03930 0.101887 42 50 2.2 46 59.1862 -13.1862 -1.33357 0.052628 45 48 2.4 54 57.5835 -3.5835 -0.37422 0.111479 52 62 2.9 26 33.5098 -7.5098 -0.90870 0.3381810 29 50 2.1 77 75.5722 1.4278 0.15022 0.1245111 29 48 2.4 89 77.7508 11.2492 1.17704 0.1149312 43 53 2.4 67 54.6578 12.3422 1.25075 0.0564413 38 55 2.2 47 58.7814 -11.7814 -1.22777 0.1077614 34 51 2.3 51 68.1805 -17.1805 -1.75452 0.0708715 53 54 2.2 57 40.9639 16.0361 1.71945 0.1571716 36 49 2.0 66 67.8383 -1.8383 -0.18606 0.0541217 33 56 2.5 79 63.9944 15.0056 1.66060 0.2087818 29 46 1.9 88 79.9294 8.0706 0.85120 0.128912219 33 49 2.1 60 71.6196 -11.6196 -1.18687 0.0712520 55 51 2.4 49 41.7109 7.2891 0.81809 0.2307621 29 52 2.3 77 73.3935 3.6065 0.38681 0.1576722 44 58 2.9 52 47.9507 4.0493 0.43670 0.1668723 43 50 2.3 60 57.9257 2.0743 0.21

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值