学习模式上的记录之统计篇二 Sigmaplot 非线性回归报告分析

先说下线性回归的前提假设(LINE):

L:Linearity 线性 因变量和每个自变量都是线性关系
I:Independence 独立性 对于所有的观测值,他们的误差项相互之间是独立的
N:Normality 正态性 误差项服从正态分布
E:Equal-Variance 等方差 所有的误差项具有同样方差
如果这些假设不满足,最终的回归模型可能不精确甚至比较离谱
参考:http://sofasofa.io/forum_main_post.php?postid=1000313
https://stats.stackexchange.com/questions/52089/what-does-having-constant-variance-in-a-linear-regression-model-mean

非线性回归的前提假设:

正态性,样本符合正态分布 That the source population is normally distributed about the regression.
同方差性,因变量的方差与自变量取值无关 The variance of the dependent variable in the source population is constant regardless of the value of the independent variable(s).
独立性,变量的残差相互独立 That the residuals are independent of each other.

和线性回归类似,非线性回归假设误差是正态、独立和同方差性,为了检验这些假设是否成立,我们用拟合模型的残差来代替误差进行判断即为残差诊断
正态性检测除了画QQ图外还可用shapiro.test函数。
独立性检验则可以绘制滞后残差图或是使用acf函数。
同方差假设采用残差绝对值和拟合值的散点图判断,或是使用bartlett.test函数检测。
参考:https://www.plob.org/article/3612.html

前提假设的checking:【Assumption Checking】
1. 正态检验:Sigmaplot用Kolmogorov-Smirnov test来检验样本是否符合正态分布
【Normality Testing. SigmaPlot uses the Kolmogorov-Smirnov test to test for a normally distributed population.】

2. 同方差检验:Sigmaplot用计算的Spearman相关系数来检验同方差性。这里的Spearman相关系数是指,残差的绝对值和因变量的观测值之间的Spearman相关系数。如果相关性显著,那么就拒绝同方差假设,此时,应该尝试换一种模型拟合或者剔除一个到多个统计上不显著的自变量。
【Constant Variance Testing. SigmaPlot tests for constant variance by computing the Spearman rank correlation between the absolute values of the residuals and the observed value of the dependent variable. When this correlation is significant, the constant variance assumption may be violated, and you should consider trying a different model (for example, one that more closely follows the pattern of the data), or transforming one or more of the independent variables to stabilize the variance.】

3. 正态性检验和同方差检验的P值:
P值决定了,“数据不符合正态分布”为错的概率(原假设为:数据符合正态分布,P值就是当原假设为真,而拒绝了原假设的风险)。如果检验计算的P值 > 设定的P值,那就接受检验,认为数据符合正态分布。
The P value determines the probability of being incorrect in concluding that the data is not normally distributed (P value is the risk of falsely rejecting the null hypothesis that the data is normally distributed). If the P computed by the test is greater than the P set here, the test passes.
对拒绝假设的检测,参数统计方法相对来说比较有理有据。建议P值为0.05。P值较大时(如0.10),得出“残差非正态分布”结论所需的证据较少,或者拒绝等方差假设。
To require a stricter adherence to normality and/or constant variance, increase the P value. Because the parametric statistical methods are relatively robust in terms of detecting violations of the assumptions, the suggested value in SigmaPlot is 0.05. Larger values of P (for example, 0.10) require less evidence to conclude that the residuals are not normally distributed or the constant variance assumption is violated.】
拒绝原假设需要较小的P值意味着,在你认为数据不是正态分布之前,你希望理论正态分布的偏差较大。
To relax the requirement of normality and/or constant variance, decrease P. Requiring smaller values of P to reject the normality assumption means that you are willing to accept greater deviations from the theoretical normal distribution before you flag the data as non-normal. For example, a P value of 0.01 for the normality test requires greater deviations from normality to flag the data as non-normal than a value of 0.05.

Durbin-Watson统计量:Sigmaplot用Durbin-Watson统计量来检验残差之间的相互独立性。Durbin-Watson统计量测量了残差之间的一系列相关性,当自变量为时间时,残差之间通常是相关的,任一t时刻,观测值与回归线之间的偏差与上一时刻的偏差相关。如果残差之间不相关,Durbin-Watson统计量为2。
如果计算出来的Durbin-Watson统计量偏离了2.0,Sigmaplot会警告你,残差之间可能并不相互独立。建议的误差值为0.50,即,Durbin-Watson统计量大于2.5,或者小于1.5,都认为残差相关。
Durbin-Watson Statistic. SigmaPlot uses the Durbin-Watson statistic to test residuals for their independence of each other. The Durbin-Watson statistic is a measure of serial correlation between the residuals. The residuals are often correlated when the independent variable is time, and the deviation between the observation and the regression line at one time are related to the deviation at the previous time. If the residuals are not correlated, the Durbin-Watson statistic will be 2.】
To require a stricter adherence to independence, decrease the acceptable difference from 2.0. To relax the requirement of independence, increase the acceptable difference from 2.0.】

回归报告解读(先上一张回归报告图以下):
回归分析结果图

R and R Squared:
其实觉得这里他描述的有些不全面,可以参考之前自己写的文件“成对数值拟合 r2 和 p 值的说明”,先把原文放在这里,画线的句子翻译了
The multiple correlation coefficient, R, and the coefficient of determination, R2, are both measures of how well the regression model describes the data. R values near 1 indicate that the equation is a good description of the relation between the independent and dependent variables. R equals 0 when the values of the independent variable does not allow any prediction of the dependent variables, and equals 1 when you can perfectly predict the dependent variables from the independent variables R2.

调整R方:
也是测量回归模型在多大的程度上可以描述数据,但是考虑了自变量的数量,也就是自由度。当R方接近1时,方程可以很好地描述自变量和因变量之间的相关性。
计算公式如下:
\R^2 _{adj} = 1-(1-R^2)(n-1)/(n-p-1)
注释: n为样本数量;p为特征数量,经过调整后的 R2,目的时为了抵消样本数量对R^2 的影响
Adjusted R Squared: The adjusted R2, R2adj, is also a measure of how well the regression model describes the data, but takes into account the number of independent variables, which reflects the degrees of freedom. Larger R2adj values (nearer to 1) indicate that the equation is a good description of the relation between the independent and dependent variables.

估计标准误差:
说明书上写的不好懂,按查到的来
分析研究现象之间相互关系的逆指标(反映线性回归模型拟合精度的统计分析指标),计算结果越小,说明利用回归直线预测的精确度越高,反之,则说明预测的精确度越低。一方面说明各观测值与回归估计值之间离差的大小;另一方面也说明线性回归方程作为各观测值代表的代表性大小,计算公式为:S_y=√(SSE/(n-k-1)),其中,n为样本数,k为模型中参数的个数,如一元线性回归模型中,k=1。
The standard error of the estimate Sy|x is a measure of regression plane of the actual variability about the regression plane of the underlying population. The underlying population generally falls within about two standard errors of the observed sample.

统计汇总表
标准误差,t和P值由最终的回归迭代计算近似值求得。
估计:
回归模型中自变量的常数和系数值列如下
Estimate. The value for the constant and coefficients of the independent variables for the regression model are listed

标准误差:
渐进标准误差计算的是回归系数估计值的不确定性(等于平均值标准误差)
{注:平均值标准误差记为σ_M=σ/√N,指的是样本分布均值的便准偏差。σ代表原始分布的标准偏差,N代表样本大小,也即每个均值基于的样本点数。计算方程说明,样本越大,平均值标准误差越小}
总体(underlying population)真正的回归系数一般在回归系数预测值的标准误差之间。标准误差大可能表明多重共线性。计算标准误差的默认程序基于回归问题是否加权。
{注:在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。}
Standard Error. The asymptotic standard errors measure the uncertainties in the estimates of the regression coefficients (analogous to the standard error of the mean). The true regression coefficients of the underlying population are generally within about two standard errors of the predicted coefficients. Large standard errors may indicate multicollinearity. The default procedure for computing standard errors is based on whether or not the regression problem is weighted.
在非加权回归问题中,每个参数的标准误差包括了估算观测值标准偏差的因子。在这个例子中,假设所有数据的误差都有相同的方差。
In an unweighted problem, the standard error for each parameter includes a factor that estimates the standard deviation of the observed data. In this case, it is assumed that the errors for all data points have the same variance.】
在加权问题中,计算标准误差有两种方法。一是包括估算观测值标准偏差的因子,称为reduced chi-square。二是在计算中忽略这个因子,如果要对计算方法进行选择,在Equation Options dialog box里选。
In a weighted problem, there are two options for computing standard errors. One option includes the factor that estimates the standard deviation of the observed data. This option is called reduced chi-square. The other option omits this factor in the computation. To select the option for standard errors, go to the Equation Options dialog box
参考:http://davidmlane.com/hyperstat/A103735.html
https://www.zhihu.com/question/21925923

t统计量 (t statistic.):
t统计量检验的是原假设:自变量的系数等于0,也就是,自变量无法预测因变量。t是回归系数与其标准误差的比值:t=regression coefficient/standard error of regression coefficient。如果t值较大,那么可以得出结论:自变量可以用来预测因变量。

P值 (P value):
P值是关于t的计算。P值是一种事件的概率,这个事件是:系数确实等于0,原假设成立,但却拒绝了原假设(也即犯Ⅰ类错误的概率,弃真)P值越小,系数不等于0的概率越大。传统上,当P<0.05时,可以得出如下结论:自变量可以用来预测因变量

方差分析表:
方差分析表列出了回归方差统计量和每一步相应的F值

平方和SS:
平方和计算了因变量的变化。
回归平方和计算的是回归值与因变量的均值之差异;
残差平方和计算的是因变量观测值与回归模型预测值之差异。

自由度DF:
自由度是指回归方程中观测值和变量的数目。
回归自由度是自变量的数目;
残差自由度是观测值数目减去方程中的参数数目。

平均平方MS:
平均平方提供了对总体反差的两种估计。比较这些方差估计值是方差分析的基础。
回归平均平方是因变量均值的回归的变化,MSreg,或者说=回归平方和/回归自由度
同理,残差平均平方=残差平方和/回归自由度,MSres

F统计量:
F检验统计量是对自变量在多大程度上可以预测因变量的估计。由下式得出:
F=MS_reg/MS_res
如果F值较大,可以得出结论:自变量可以在一定程度上预测因变量(比如,至少一个系数不为零,来自因变量随机采样扰动的不可解释的变动只占很小一部分)。如果F值在1左右,可以得出结论:变量之间没有联系(比如,数据分布与原假设一致,原假设为,所有的样本都是随机分布的)

P值:
P值代表的是错误地得出自变量与因变量之间有联系的结论(比如,原假设确实为真,但是却根据F值拒绝了原假设的概率,也就是犯Ⅰ类错误,弃真的概率)。P值越小,自变量和因变量有联系的概率越大。
一般地,当P<0.05时,可以得出结论:自变量可以用来预测因变量。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值