xyz回归分析 matlab,第5讲-回归分析-Matlabppt课件

《第5讲-回归分析-Matlabppt课件》由会员分享,可在线阅读,更多相关《第5讲-回归分析-Matlabppt课件(125页珍藏版)》请在人人文库网上搜索。

1、第五讲 数据拟合回归分析,回归一词的由来,谢中华 天津科技大学,2021/2/16,相关与回归分析概述 线性回归 非线性回归 回归分析的Matlab函数,主要内容,变量间的关系,确定性关系或函数关系 y=f (x,人的身高和体重 家庭的收入和消费 商品的广告费和销售额 粮食的产量和施肥量 股票的价格和时间 学生的期中和期末考试成绩,不确定性关系,x,Y,实变量,随机变量,不确定性关系,一、 相关与回归分析概述,确定性关系与相关关系,2相关关系的图示,1)从一组样本数据出发,确定变量之间的数学关系式 2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显。

2、著,哪些不显著 3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,3什么是回归分析,x,y,采集样本信息(xi,yi,回归分析,散点图,回归方程,回归方程的显著性检验,对现实进行预测与控制,4回归分析的流程,对于回归模型,我们假设,可得到,y 称为因变量,x 称为自变量, 称为随机扰动,a, b 称为待估计的回归参数,下标 i 表示第 i 个观测值,若两个变量x, y之间有线性相关关系,其回归模型为,二、 一元线性回归分析,1回归模型,如果给出a 和b 的估计量分别为 ,则经验回归方程为,一般地,称为残差,残差 可视为扰动 的“估计。

3、量,去掉回归模型中的扰动项,得理论回归方程为,2回归方程,3一元线性回归图示,二元函数 的最小值点 称为a, b的最小二乘估计(简记为OLSE,记,其中,4回归系数的最小二乘估计,所以方程组有解,解得,其中,即最小二乘估计所得经验回归方程为,上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量和的任意对观测值,只要不全相等,则无论变量 和 之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量 和 之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义, 就。

4、需要进行回归方程的显著性检验,5回归方程的显著性检验,1)因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x 对 y的非线性影响、测量误差等)的影响 (2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,离差平方和分解,离差平方和分解示意图,两端平方后求和有,从图上看有,SST = SSR + SSE 自由度( df ) n-1 = 1 + n-2,总变差平方和 (SST,回归平方和 (SSR,残差平方和 (SSE,三个平方和的关系,1) 总平方和(SST) 反映因变量的 n 个观察。

5、值与其均值的总离差 (2) 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 (3) 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,三个平方和的意义,回归平方和占总离差平方和的比例,1) 反映回归直线的拟合程度 (2) 取值范围在 0 , 1 之间 (3) r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差 (4) 判定系数等于相关系数的平方,即r2(r)2,判定系数 r2,定义,判定系数的意义,线性关系的检验(。

6、F 检验,1) 提出假设,2) 计算检验统计量F,3) 确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F (1, n-2,检验的步骤,H0:b=0 H1:b 0,4) 作出决策:若FF ,拒绝H0;若FF ,接受H0,如果拒绝 H0,两个变量之间存在显著线性关系如果接受H0,两个变量间不存在显著线性关系,其中,F 值的计算,1) 检验两个变量之间是否存在线性相关关系,计算检验的统计量,确定显著性水平,并作出决策 若t t,拒绝H0 若t t,接受H0,相关系数的显著性检验(t 检验,2) 等价于对回归系数 b 的检验,3) 采用 t 检验,4) 检验的步骤为,提出假设:H0: 。

7、;H1: 0,1) 检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,2) 理论基础是回归系数 的抽样分布,3) 在一元线性回归中,等价于回归方程的显著性检验,回归系数的显著性检验(t 检验,1) 提出假设 H0: b = 0 (没有线性关系) H1: b 0 (有线性关系,3) 确定显著性水平,并进行决策 tt,拒绝H0; tt,接受H0,回归系数的显著性检验 (步骤,2) 计算检验的统计量,1)根据自变量 x 的取值估计或预测因变量 y 的取值 (2)估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置。

8、信区间估计 y 的个别值的预测区间估计,6利用回归方程进行估计和预测,2) 点估计值有 y 的平均值的点估计 y 的个别值的点估计,1) 对于自变量 x 的一个给定值 x0 ,根据回归方程得到因变量 y 的一个估计值,点估计,3) 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,利用估计的回归方程,对于自变量 x 的一个给定值 x0 , 求出因变量 y 的一个个别值的估计值 ,就是个别值的 点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计,y 的平均值的点估计,y 的个别值的点。

9、估计,1) 点估计不能给出估计的精度,点估计值与实际值之间是 有误差的,因此需要进行区间估计 (2) 对于自变量 x 的一个给定值 x0,根据回归方程得到因变 量 y 的一个估计区间 (3) 区间估计有两种类型 置信区间估计 预测区间估计,区间估计,y 的平均值的置信区间估计,置信区间估计,其中: 为估计标准误差,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区 间称为置信区间,E(y0) 在1-置信水平下的置信区间为,y 的个别值的预测区间估计,预测区间估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变。

10、量 y 的一个个别值的估计区间,这一区间称 为预测区间,y0在1-置信水平下的预测区间为,置信区间、预测区间、回归方程的图示,xp,y,x,x,预测上限,置信上限,预测下限,置信下限,y,1)一个因变量与两个及两个以上自变量之间的回归 (2)描述因变量 y 如何依赖于自变量 x1 , x2 , xp 和误差项 的方程称为多元线性回归模型 (3)涉及 p 个自变量的多元线性回归模型可表示为,b0 ,b1,b2 ,bp是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xp 的线性函数加上误差项 说明了包含在y里面但不能被p个自变量的线性关系所 解释的变异性,三、 多元线性回归分析,1回归。

11、模型,对于 n 组实际观察数据(yi ; xi1,,xi2 , ,xip ),(i=1,2,n),多元线性回归模型可表示为,1) 自变量 x1,x2,xp是确定性变量,不是随机变量 (2) 随机误差项的期望值为0,且方差2 都相同 (3) 误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,2基本假定,描述 y 的平均值或期望值如何依赖于 x1, x1 ,xp的 方程称为多元线性回归方程,多元线性回归方程的形式为,b1,b2,bp称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时, y的平均平均变动值,3回归方程,E( y ) = 0+ 1 x1 + 2 x2 。

12、+ p xp,4. 多元线性回归方方程的直观解释,2)根据最小二乘法的要求,可得求解各回归参数的标准方程如下,1)使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即,5. 参数的最小二乘法,整理得,或矩阵形式,其中,解得,1) 回归平方和占总离差平方和的比例,2) 反映回归平面的拟合程度 (3) 取值范围在 0 , 1 之间 (4) R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差 (5) 等于多重(复)相关系数的平方,即R2=(R)2,6. 多重判定系数 R2,1) 由于增加自变量将影响到因变量中被估计的回归方程所 解释的变异性的数量,为避免高估这一影响,需要用自。

13、 变量的数目去修正R2的值 (2) 用n表示观察值的数目,p表示自变量的数目,修正的多 重判定系数的计算公式可表示为,7. 修正的多重判定系数 R2,1) 检验因变量与所有的自变量和之间是否存在一个显著 的线性关系,也被称为总体的显著性检验 (2) 检验方法是将回归离差平方和(SSR)同剩余离差平方和 (SSE)加以比较,应用 F 检验来分析二者之间的差别是 否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系,8. 线性关系的检验,1) 提出假设 H0:12p=0 线性关系不显著 H1:1,2,p至少有一个不等于0,2) 计算检验统计量F,3) 。

14、确定显著性水平和分子自由度p、分母自由度n-p-1找 出临界值F (4) 作出决策:若FF ,拒绝H0;若FF,接受H0,回归方程的显著性检验 (步骤,1) 如果F检验已经表明了回归模型总体上是显著的,那么 回归系数的检验就是用来确定每一个单个的自变量 xi 对 因变量 y 的影响是否显著 (2) 对每一个自变量都要单独进行检验 (3) 应用 t 检验 (4) 在多元线性回归中,回归方程的显著性检验不再等价于 回归系数的显著性检验,回归系数的显著性检验,1. 提出假设 H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关。

15、系,3. 确定显著性水平,并进行决策 tt,拒绝H0; tt,接受H0,回归系数的显著性检验(步骤,2. 计算检验的统计量 t,其中cii 为矩阵,的主对角线上的第 i +1个元素,因变量 y 与 x 之间不是线性关系 可通过变量代换转换成线性关系 用最小二乘法求出参数的估计值 并非所有的非线性模型都可以化为线性模型 对于不能化为线性模型的非线性模型,应直接用非线性最小二乘法处理,四、 非线性回归,线性化方法 两端取对数得:lny = ln + x 令:y = lny,则有y = ln + x,基本形式,图像,非线性模型的线性化处理,指数函数,线性化方法 两端取对数得:lny = ln + /。

16、 x 令:y = lny, x = 1/x,则有y = ln + x,基本形式,图像,负指数函数,线性化方法 两端取对数得:lg y = lg + lg x 令:y = lgy,x= lg x,则y = lg + x,基本形式,图像,幂函数,线性化方法 令:y = 1/y,x= 1/x, 则有y = + x,基本形式,图像,双曲线函数,线性化方法 x= lgx , 则有y = + x,基本形式,图像,对数函数,线性化方法 令:y = 1/y,x= e-x, 则有y = + x,基本形式,图像,S 型曲线,线性化方法 令:y = y,x1=x, x2=x2, , xn= xn 则有,基本形式,图。

17、像,多项式曲线,五、 回归分析的Matlab函数,线性回归函数 多项式回归函数 非线性回归函数 逐步回归函数 响应面回归函数 曲线拟合工具箱函数 稳健线性回归函数,一)、线性回归函数regress,1. 确定回归系数的点估计值,b = regress ( Y, X,2. 求回归系数的点估计和区间估计、并检验回归模型,b, bint,r,rint,stats=regress(Y,X,alpha,3. 画出残差及其置信区间,rcoplot ( r , rint,例5-1 考察15名不同程度的烟民的每日抽烟量、饮酒量(啤酒)与其心电图指标(zb)的对应数据,试建立心电图指标关于日抽烟量和日饮酒量的适。

18、合的回归模型,表5-1 例5-1数据,xyz=30 10 280 25 11 260 35 13 330 40 14 400 45 14 410 20 12 170 18 11 210 25 12 280 25 13 300 23 13 290 40 14 410 45 15 420 48 16 425 50 18 450 55 19 470; plot3(xyz(:,1), xyz(:,2), xyz(:,3),o) grid on set(gca,color,none) xlabel(日抽烟量(x)/支); ylabel(日饮酒量(y)/升); zlabel(心电图指标(zb); set(。

19、gca,Xcolor,1 0 0,Ycolor,1 0 0,Zcolor,1 0 0,画散点图的Matlab程序,x=xyz(:,1); y=xyz(:,2); z=xyz(:,3); n=size(x,1); xy=ones(n,1), x, y; b,bint,r,rint,stats=regress(z,xy,调用regress函数作回归分析的Matlab程序1,b =r =rint = 66.0944-17.7298-63.67228.2124 6.9774-5.0743-62.548652.4001 2.2314-9.3109-68.599949.9781 23.5708-33.73。

20、1980.8734 bint =-1.3161-56.505553.8732 -38.5544170.7431-62.4187-98.9014-25.936 4.32059.6342-6.2326-61.331148.866 -10.424214.886912.6943-45.36370.7517 30.463-22.603583.5294 34.4177-15.112983.9484 33.5708-21.538188.6797 6.4525-51.661864.5667 -11.7111-68.682245.26 -5.1286-57.497147.2399 -22.2469-68.625。

21、824.132,结果,stats = 0.9246 73.5741 0.0000 751.6477,回归方程,rcoplot(r,rint,残差分析,xdat,ydat=meshgrid(15:5:60,8:21); zdat1=ones(length(xdat(:),1) xdat(:) ydat(:)*b; zdat1=reshape(zdat1,size(xdat); mesh(xdat,ydat,zdat1) alpha(0) hold on plot3(x, y, z,b*,markersize,10) xlabel(日抽烟量(x)/支); ylabel(日饮酒量(y)/升); zl。

22、abel(心电图指标(zb); set(gca,Xcolor,1 0 0,Ycolor,1 0 0,Zcolor,1 0 0) set(gca,color,none,作回归平面的Matlab程序,回归平面,xy=ones(n,1), x, y, x.2, x.*y, y.2; b,bint,r,rint,stats=regress(z,xy,调用regress函数作回归分析的Matlab程序2,部分结果,b =bint = -283.1555-744.3545 178.0436 17.7399-11.037 46.5168 22.681-93.3294 138.6914 -0.1906-0.7。

23、285 0.3472 0.0601-4.1065 4.2267 -0.4046-9.6039 8.7946 stats = 0.9545 37.7525 0 604.8832,xtemp=xdat(:);ytemp=ydat(:); zdat2=ones(length(xtemp),1) xtemp ytemp xtemp.2 xtemp.*ytemp ytemp.2*b; zdat2=reshape(zdat2,size(xdat); mesh(xdat,ydat,zdat2) alpha(0) hold on plot3(x, y, z,b*,markersize,10) xlabel(日。

24、抽烟量(x)/支); ylabel(日饮酒量(y)/升); zlabel(心电图指标(zb); set(gca,Xcolor,1 0 0,Ycolor,1 0 0,Zcolor,1 0 0) set(gca,color,none,作回归曲面的Matlab程序,回归曲面,二)、多项式回归函数polyfit,polytool,1. 确定回归系数的点估计值,p, s = polyfit ( X, Y, m,2. 预测和预测误差估计,Yhat = polyval ( p, xdat,Yhat, DELTA = polyconf ( p, xdat, s, alpha,1) Yhat=polyval (。

25、 p, xdat) 求polyfit所得的回归多项式在xdat 处的预测值Y; (2) Yhat, DELTA=polyconf ( p, xdat, s, alpha) 求polyfit所得的回归多项式在x 处的预测值Yhat及预测值的置信水平为1- alpha的置信区间Yhat DELTA;alpha缺省时为0.05,例5-2 出钢时所用的盛钢水的钢包,由于钢水对耐火材料的浸蚀,容积不断增大。我们希望找到使用次数与增大的容积之间的关系。对一钢包做试验,测得数据列于下表,1)作出散点图; (2)求y 关于x 的经验回归方程,表5-2 例5-2数据,原始数据散点与折线图,xy=2 3 4 5 。

26、6 7 8 9 10 11 12 13 14 15 16 6.42 8.2 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10.6 10.8 10.6 10.9 10.76; x=xy(1,:); y=xy(2,:); figure(1) plot(x,y,bo); grid on; xlabel(使用次数); ylabel(增大容积) set(gca,color,none) p,s=polyfit(x,y,2); yhat,delta=polyconf(p,x,s); p y yhat y-yhat yhat-delta yhat+delta figure(2)。

27、 plot(x,y,bo,x,yhat,r,x,yhat-delta,c,x,yhat+delta,c);grid on; xlabel(使用次数); ylabel(增大容积) set(gca,color,none,调用polyfit函数作多项式拟合的Matlab程序1,p = -0.029 0.7408 6.0927,部分结果,模型预测图,模型检验,ybar = mean(y); n = length(x); SSR1 = sum(yhat-ybar).2); MSR1 = SSR1/1; SSE1 = sum(y-yhat).2); MSE1 = SSE1/(n-2); r2 = SSR1。

28、/(SSR1+SSE1) fvalue1 = MSR1/MSE1 falpha1 = finv(0.95,1,n-2) pvalue1 = 1-fcdf(fvalue1,1,n-2,检验结果,r2 = 0.8593 fvalue1 = 79.3801 falpha1 = 4.6672 pvalue1 = 6.7499e-007,3. 多项式拟合交互式工具polytool,h = polytool ( X, Y, m, alpha, xname, yname,对于例5-2可以利用交互式工具polytool进行拟合 h=polytool(x,y,2,0.05,使用次数,增大容积,交互式工具预测图,。

29、三)、非线性回归函数nlinfit,lsqnonlin,lsqcurvefit,1. 利用nlinfit函数作非线性拟合,beta, r, J, COVB,mse = nlinfit( X, y, fun, b0, options,调用格式,ci = nlparci(beta,resid,covar,Sigma) 或 ci = nlparci(beta,resid,jacobian,J,参数估计的置信区间,beta,resid,J,Sigma= nlinfit(X, y, fun, b0,预测值的置信区间,ypred,delta = nlpredci(fun,x,beta,resid,cova。

30、r,Sigma) 或 ypred,delta = nlpredci(fun,x,beta,resid,jacobian,J,beta,resid,J,Sigma= nlinfit(X, y, fun, b0,求nlinfit所得的回归方程在x 处的预测值ypred及预测值的置信水平为1- alpha的置信区间ypred delta;alpha缺省时为0.05,例5-3 根据经验,人口增长的预测模型通常采用Logistic函数,其中y( t )为t 时刻人口数,A,B,C为常数。试根据1975-2005年的中国人口数据(见下页表),得出中国人口增长预测模型,表5-3 例5-3数据,原始数据散点和。

31、折线图,renkou_data=19750924209.242 19761937179.3717 19772949749.4974 19783962599.6259 19794975429.7542 19805987059.8705 1981610007210.0072 1982710165410.1654 1983810300810.3008 1984910435710.4357 19851010585110.5851 19861110750710.7507 19871210930010.93 19881311102611.1026 19891411270411.2704 199015114。

32、33311.4333 19911611582311.5823 19921711717111.7171 19931811851711.8517 19941911985011.985 19952012112112.1121 19962112238912.2389 19972212362612.3626 19982312476112.4761 19992412578612.5786 20002512674312.6743 20012612762712.7627 20022712845312.8453 20032812922712.9227 20042912998812.9988 2005301307。

33、5613.0756; year=renkou_data(:,1); t=renkou_data(:,2); y=renkou_data(:,4); figure(1) plot(year,y,r,year,y,bo);grid on; xlabel(时间(1975-2005年)); ylabel(中国人口(亿人)) set(gca,color,none) fun=(beta,t)beta(1)./(1+beta(2)*exp(beta(3)*t); beta,resid,J,Sigma,mse = nlinfit(t,y,fun,15,1,1); yp=fun(beta,t); beta ci。

34、 = nlparci(beta,resid,covar,Sigma) ypred,delta = nlpredci(fun,t,beta,resid,covar,Sigma); year y ypred resid ypred-delta ypred+delta,调用nlinfit函数作logistic回归的matlab程序,figure(2) plot(year,y,k.,year,ypred,r,year,ypred-delta,b,year,ypred+delta,b); grid on xlabel(时间(1975-2005年)); ylabel(中国人口(亿人)) set(gca,c。

35、olor,none) ybar = mean(y); n = length(t); SSR1 = sum(ypred-ybar).2); MSR1 = SSR1/3; SSE1 = sum(y-ypred).2); MSE1 = SSE1/(n-3) ; r2 = SSR1/(SSR1+SSE1) fvalue1 = MSR1/MSE1 falpha1 = finv(0.95,3,n-3) pvalue1 = 1-fcdf(fvalue1,3,n-3,画预测图和模型检验的matlab程序,beta = 16.1634 0.7712 -0.0408 ci =15.314417.0123 0.68。

36、620.8562 -0.046-0.0356 r2 = 0.9974 fvalue1 = 3.5476e+003 falpha1 = 2.9467 pvalue1 = 0,由上面结果知模型非常显著(p=0),得到的Logistic函数表达式为,部分结果,模型预测图,例5-4 在一丘陵地带测量高程,x和y方向每隔100米测一个点,得高程如下表,试拟合一曲面,确定合适的模型,并由此找出最高点和该点的高程,表5-4 例5-4数据,原始数据面图,z=636 697 624 478 450 698 712 630 478 420 680 674 598 412 400 662 626 552 334 3。

37、10; x,y=meshgrid(100:100:500,100:100:400); figure(1) surf(x,y,z) grid on xlabel(X); ylabel(Y); zlabel(Z); set(gca,color,none) xy=x(:),y(:);zd=z(:); fun_gc=(beta,t)beta(1)*t(:,1)+beta(2)*t(:,2) . +beta(3)*(t(:,1).2+beta(4)*t(:,1).*t(:,2) . +beta(5)*(t(:,2).2+beta(6)*(t(:,1).3 . +beta(7)*(t(:,1).2.*t(。

38、:,2)+beta(8)*t(:,1).*(t(:,2).2 . +beta(9)*(t(:,2).3+beta(10); beta,resid,J,Sigma,mse = nlinfit(xy,zd,fun_gc,ones(10,1,调用nlinfit函数作二元非线性回归的Matlab程序,beta= 5.3339e+000 1.9410e+000 -1.9341e-002 -3.6381e-003 -4.8775e-003 1.9125e-005 3.4643e-006 6.2500e-007 4.0333e-006 1.6353e+002,部分结果,拟合的曲面方程为: z=5.3339x。

39、+1.9410*y-0.0193*x2-0.00364xy -0.00488y2+0.000019x3+(3.464e-6)x2y +(6.25e-7)xy2+(4.033e-6)y3+163.5; 通过求偏导,然后由偏导等于0解得最高点为 (167.2419 200.6160),最高点处的高程为731.6817,xdat,ydat=meshgrid(100:10:500,100:10:400); xydat=xdat(:),ydat(:); zdat=fun_gc(beta,xydat); zdat=reshape(zdat,size(xdat); figure(1) surf(xdat,y。

40、dat,zdat) grid on xlabel(X); ylabel(Y); zlabel(Z); set(gca,color,none,作回归曲面图的Matlab程序,回归曲面图,2. 利用lsqnonlin函数作非线性拟合,调用格式,lsqnonlin函数的简单调用格式为: x = lsqnonlin(fun,x0,lb,ub,options,这里: fun是事先用 m-文件定义的待拟合的非线性函数; x0是回归系数的初值; lb, ub是回归参数的上下界 options是回归参数选项,3. 利用lsqcurvefit函数作非线性拟合,调用格式,lsqcurvefit函数的简单调用格式为。

41、: x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub,options,这里: fun是事先用 m-文件定义的待拟合的非线性函数; x0是回归系数的初值; xdata, ydata是已知数据点; lb, ub是回归参数的上下界 options是回归参数选项,nonlinfit, lsqnonlin, lsqcurvefit在功能上是类似的,但对于拟合过程的控制、输出参数的种类等有所不同,对于初学者而言,掌握三个函数的任意一个即可,例5-5 已知数据,拟合如下函数形式的曲线,表5-5 例5-5数据,x=1:8; y=15.3 20.5 27.4 36.6 49.1 。

42、65.6 87.8 117.6; objfun1=(a,x)a(1)*exp(a(2)*x); objfun2=(a)a(1)*exp(a(2)*x)-y; a0=1,1; a1=lsqcurvefit(objfun1,a0,x,y) a2=lsqnonlin(objfun2,a0) a3=nlinfit(x,y,objfun1,a0,调用nlinfit、lsqnonlin、lsqcurvefit函数作非线性回归,a1 =1.1424e+001 2.9141e-001 a2 =1.1424e+001 2.9141e-001 a3 =1.1424e+001 2.9141e-001,部分结果,拟合。

43、曲线图,yp1=objfun1(a1,x); yp2=objfun2(a2)+y; yp3=objfun1(a3,x); plot(x,y,*,x,yp1,r,x,yp2,c:,x,yp3,b:) xlabel(X); ylabel(Y); legend(observe data,lsqcurvefit,lsqnonlin,nlinfit,Location,NorthWest,4. 非线性拟合交互式工具nlintool,nlintool ( X, y, fun, beta0, alpha, xname, yname,对于例5-5可以利用交互式工具nlintool进行拟合 nlintool(x,。

44、y, objfun1,a0,0.05,X,Y,交互式工具预测图,四)、逐步回归函数stepwise,1. 逐步回归简介,4)“有进有出”的逐步回归分析,1)从所有可能的因子(变量)组合的回归方程中选择 最优者,2)从包含全部变量的回归方程中逐次剔除不显著因子,3)从一个变量开始,把变量逐个引入方程,选择“最优”的回归方程有以下几种方法,最优”的回归方程就是包含所有对Y有影响的变量, 而不包含对Y影响不显著的变量回归方程,以第四种方法,即逐步回归分析法在筛选变量方面较为理想,这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止,从一个自变量开始,视自变量Y作用。

45、的显著程度,从大到地依次逐个引入回归方程,当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉,引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步,对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量,逐步回归分析法的思想,2. 利用stepwise函数作逐步回归,stepwise( X, y, inmodel, penter, premove,调用格式,函数运行后出现一交互式界面,通过该界面进行引入和剔除变量的操作,还可以导出相关结果,例5-6 研究光合速率y与比叶重x1、气孔密度x2、叶绿素含量x3之间的关系,试验得到红薯性状观测值。

46、的数据如下表,试建立y关于x1,x2,x3的回归模型,表5-6 例5-6数据,x123y=1.999311.44.057511.7161 2.02548.13.77506.9862 2.001010.73.373311.3444 2.107211.23.135212.4770 1.89419.03.51905.9618 2.018812.53.427811.2210 1.936210.13.85188.8416 2.10728.54.13737.9488 1.98438.34.27199.8014 1.990410.84.987211.0765 1.783610.73.00196.3744 1。

47、.97308.84.30739.3993 1.941410.24.39659.8420 2.05199.04.16738.2510 1.962611.14.018610.6400 1.865114.23.41756.6433; x1=x123y(:,1);x2=x123y(:,2);x3=x123y(:,3); y=x123y(:,4); x123=x1 x2 x3 x1.2 x2.2 x3.2 x1.*x2 x1.*x3 x2.*x3; stepwise(x123,y,1:9,0.05,0.05,调用stepwise函数作逐步回归的Matlab程序,逐步回归,初始结果界面,最终结果界面,经过。

48、3步,得到最终回归模型为,结果分析,模型的判定系数R_Square=0.8949,F值为12.7721,p值0.00059,模型显著,预测效果图,yp=x123*beta+stats.intercept; plot(y,*);hold on;plot(yp,r) xlabel(观测序号); ylabel(光合速率y); legend(观测数据,逐步回归拟合,Location,Northeast) set(gca,color,none,许多工业试验中考察的指标(称为响应变量或因变量)经常受很多因素(称为因子变量或自变量)的影响。试验的目的是找出当这些因素取何值时,考察的指标最佳。假定指标和因素间。

49、满足二次函数关系,如果每个因素测定三个以上不同值,那么二次曲面可以由最小二乘估计法得到;如果得到的曲面是凸面(像山丘)或凹面(像山谷)这类简单曲面,那么预测的最佳指标(极大值或极小值)可以从所估计的曲面上获得;如果曲面很复杂,或者预测的最佳点远离所考察因素的试验范围,那么可以通过分析二次曲面的形状,来确定重新进行试验的方向,五)、响应面分析函数rstool,1. 响应面分析简介,然后通过对自变量 的合理取值,求得使 最优的值,这就是响应面分析的目的,在响应面分析中,首先要得到回归方程,假定某个响应变量y 在两个因子变量x1和x2的一些组合值 上被测量,关于响应变量y 的二次响应曲面回归模型为,。

50、y=0+1x1+2x2+3x12+4x22+5x1x2,对这样的数据进行分析一般有以下三项任务: 模型拟合及对参数估计作方差分析; 为了调查预测响应曲面的形状而进行典型相关分析; 为了寻找最佳响应的范围而进行岭嵴分析,2. 利用rstool函数作响应面分析,rstool( x, y, model, alpha, xname, yname,调用格式,例5-7 此例使用3因子二次型模型,1971年由John讨论过。试验的目的是想法使一种难闻的化学气味达到最小。考察的响应变量(因变量)y表示臭气,与臭气有关的因子有3个:x1为温度,x2为气体-液体比,x3为容器的高度。共有15组试验数据(如下表),。

51、因子变量值为编码数据。试对数据作响应面分析,建立y关于x1,x2和x3的二次模型,x123y=-1-1066 1-1039 -11043 11049 -10-158 10-117 -101-5 101-40 0-1-165 01-17 0-1143 011-22 000-31 000-35 000-26; x123=x123y(:,1:3); y=x123y(:,4); xname=温度(x1),气体-液体比(x2),容器高度(x3); yname=臭气(y); rstool(x123,y,quadratic,0.05,xname,yname,调用rstool函数作响应面分析的Matlab程序。

52、,运行界面,Parameter Estimate Inter -30.66666667 x1 -12.125 x2 -17 x3 -21.375 x1*x2 8.25 x1*x3 1.5 x2*x3 -1.75 x1*x1 32.08333333 x2*x2 47.83333333 x3*x3 6.083333333,Residual -20.625 -6.875 6.875 20.625 15.5 1.75 -1.75 -15.5 5.125 -22.375 22.375 -5.125 -0.333333333 -4.333333333 4.666666667,部分结果,从残差可以看出拟合较。

53、差,应进一步分析,六)、曲线拟合工具箱函数cftool,cftool cftool(x , y) cftool( x, y, w,调用格式,例5-8 钢的强度和硬度都是反映钢质量的指标。现在炼20炉中碳钢,它们的抗拉强度Y与硬度x的20对实验值如下表。 (1) 试绘出散点图 (2)求Y对x的经验回归直线方程,表5-8 例5-8数据,散点图,xy=277103 25799.5 25593 278105 306110 26898 285103.5 286103 272104 285103 286108 269100 24696.5 25592 25394 25594 26999 297109 25。

54、795.5 25091; x=xy(:,1);y=xy(:,2); plot(x,y,*) xlabel(硬度); ylabel(抗拉强度); set(gca,color,none) cftool(x,y,调用cftool函数作曲线拟合的Matlab程序,部分结果,七)、稳健线性回归函数robustfit,b = robustfit(X,Y) b,stats = robustfit(X,Y) b,stats = robustfit(X , Y, wfun, tune, const,调用格式,加权函数,加权函数,是否显示常数项的标示,取值为 on或 off,例5-9 已知数据,求Y关于X的直线方。

55、程,表5-9 例5-9数据,xy=1 2 3 4 5 6 7 8 9 10 7.1949 6.5287 4.2193 1.0781 -2.1707 -2.0592 -5.0106 -5.3855 -7.4923 0; x=xy(1,:); y=xy(2,:); bls = regress(y,ones(10,1) x) brob = robustfit(x,y) scatter(x,y) hold on plot(x,bls(1)+bls(2)*x,b:) plot(x,brob(1)+brob(2)*x,r-) xlabel(X); ylabel(Y); legend(最小二乘回归,稳健回归,调用robustfit函数作稳健回归的Matlab程序,bls = 7.3263 -1.3884,拟合结果,brob = 9.3455 -1.9301,拟合直线。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值