参考资料:生物统计学
在自然界中,变量间的关系可分为两大类。①确定性关系,又称为函数关系,可以用精确的数学公式来表示。例如,正方形的面积与边长的关系,一定速度下车辆行驶的距离与时间的关系。②非确定性关系,一个变量发生变化,另一个变量也跟着发生变量,但变量间不存在完全的函数关系,例如身高与体重之间存在身高越高体重越重的关系,但有完全对应,无法用确定的函数关系来表达。统计学上把这种变量间的相互关系称为协变关系(covariant relation),具有协变关系的变量称为协变阿玲(covariate)。统计学上,常用回归(regression)和相关(correlation)的方法来研究协变量之间的关系,探讨他们之间的变化规律。
变量间的协变关系分为两类:一类是因果关系,即一个变量的变化受另一个或几个变量的影响,例如酶活性的变化受底物浓度、反应时间、温度等多个变量的影响;另一类是平行关系,即变量间相互影响或共同受到其他因素的影响,例如身高与体重的关系等。
如果变量之间是否因果关系,统计学上一般采用回归分析(regression analysis)方法进行研究。表示原因的变量称为自变量(independent variable),用x表示。自变量是固定的(试验时事先确定的),没有随机误差。表示结果的变量称为因变量或依变量(dependent variable),用y表示。y是随着x的变化而变化的,具有随机误差。如施肥量与作物产量的关系,施肥量是事先确定的,为自变量x;作物产量是随施肥量变化而变化的,为因变量y,同样的施肥量下作物产量不完全一样,所以具有随机误差。通过回归分析,可以找出因变量y随着自变量x变化的规律,并通过x预测y的取值范围。
在回归分析中,如果自变量x的每一个值xi,因变量y具有一个分布与其对应,则称因变量y对自变量x存在回归关系。根据自变量的数量,回归分析分为一元回归分析和多元回归分析,研究因变量与一个自变量的关系的回归分析称为一元回归(one factor regression)分析,研究因变量与多个自变量的关系的回归分析称为多元回归(multiple regression)分析。根据回归的数学模型,回归分析分为线性回归(linear regression)分析和非线性回归(nonlinear regression)分析两类。回归分析的目的在于揭示出因果关系的相关变量间的联系形式,通过建立回归方程,然后回归方程由自变量来预测或控制因变量。
如果变量之间是平行关系,统计学上采用相关分析(correlation analysis)的方法进行研究。在相关分析中,两个变量x和y,无自变量与因变量的区分,都具有随机误差,都是随机变量。如果对一个变量的每一个取值,另一个变量都有一个分布与其对应,则称这两个变量之间存在相关关系。研究两个变量间的直线关系的分析称为直线相关(linear correlation)分析或简单相关(simple correlation)分析,研究多个变量与一个变量间线性关系的分析称为偏相关(partial correlation)分析。相关分析研究变量间相关的性质和程度,不能用一个变量的变化去预测其他变量的变化或依靠其他变量的变化来预测一个变量的变化。