Linear regression and correlation analysis
•第五章中,我们介绍了如何研究两个定性变量是否有关系的问题。
•实际工作中,我们经常需要研究两个或两个以上定量变量是否有关系,有怎么样的关系。
•对于生物学数据,因为存在随机性和变异性等,所以通常不能推导出确定的函数关系,但是可以使用统计学上的回归与相关分析研究其分布情况(如平均数、标准差和置信区间)。
因果关系与平行关系
•经常地,我们发现一个变量随着另一个变量的变化而变化,但是这不一定说明两者存在因果关系。
•还有一种可能是这两者共同受到另外一个变量的影响,称为平行关系。
散点图(scatter chart):直观的查看x、y的关系。
-
两个变量间关系的性质和程度;
-
两个变量间关系的类型,是直线型或者曲线型。
-
是否有异常观测值的干扰
回归分析(regression analysis):回归分析经常用于研究两个变量的因果关系,建立回归方程用于根据自变量预测和控制因变量。
表示原因的变量称为自变量(independent variable),常用x表示,一般是试验中预先确定的,没有随机误差。
表示结果的变量称为因变量(dependent variable),常用y表示,y随x的变化而变化,且具有随机误差。
回归分析的分类 | |
---|---|
根据自变量,因变量的数目 | 一个自变量与一个因变量:一元回归分析 |
多个自变量与一个因变量:多元回归分析 | |
根据变量间关系的类型 | 直线回归(linear regression) |
曲线回归(curve regression) |
相关分析(correlation analysis):相关分析通常用于研究两个变量的平行关系。变量x和y无自变量和因变量之分,且都具有随机误差。
相关分析的分类 | |
---|---|
对两个变量之间的直线关系进行相关分析 | 直线相关(linear correlation)分析或简单相关(simple correlation)分析 |
一个变量与多个变量的线性相关 | 复(multiple)相关分析 |
保持其余变量不变的情况下研究两个变量的线性相关 | 偏(partitial)相关分析 |
直线回归
直线回归的数学模型
虽然x固定时,y并没有确定的值,但是此时y的分布是固定的,或者说其平均数等指标是固定的。
μ Y = α + β X \mu_Y=\alpha+\beta X μY=α+βX
α \alpha α为直线在y轴的截距(intercept)
β \beta β为直线的斜率(slope)
Y = α + β X + ϵ Y=\alpha+\beta X+\epsilon Y=α+βX+ϵ
若使用样本资料估计参数
y = a + b x + e y=a+bx+e y=a+bx+e
直线回归方程的参数估计
b = ∑ ( x − x ‾ ) − ( y − y ‾ ) ∑ ( x − x ‾ ) 2 = S P S S x b=\frac{\sum (x-\overline x)-(y-\overline y)} {\sum(x-\overline x)^2} =\frac{SP}{SS_x} b=∑(x−x)2∑(x−x)−(y−y)=SSxSP
b的分子简称为两个离均差的乘积和,记作SP或 S S x y SS_{xy} SSxy
b的分母称为离均差平方和,记作 S S x SS_x SSx
α = y ‾ − b x ‾ \alpha=\overline y-b\overline x α=y−bx
回归方程的三个基本性质
(1) Q = ∑ ( y − y ^ ) 2 Q=\sum(y-\hat y)^2 Q=∑(y−y^)2最小
(2) ∑ ( y − y ^ ) = ∑ ( y − a − b x ) = 0 \sum(y-\hat y)=\sum(y-a-bx)=0 ∑(y−y^)=∑(y−a−bx)=