回归分析的定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
多元线性回归在医学上有着广泛的应用
1:影响因素分析,大多数疾病都有多种致病原因,疾病的预后也是由多种因素决定的。
2:估计与预测。
3:统计控制,给定应变量y指定一个确定值或在一定范围内波动,通过控制自变量的值来实现。
多元线性回归分析的数据结构
实验对象 | Y(因变量) | X1(自变量) | X2 | …… | Xm |
1 | Y1 | X11 | X12 | …… | X1m |
2 | Y2 | X21 | X22 | …… | X2m |
3 | …… | …… | …… | …… | …… |
4 | yn | Xn1 | Xn2 | …… | Xnm |
其中y取值服从正态分布
多元线性回归分析方程:
y=b0+b1x1+b2x2+……+bmxm+e
其中b0为截距,b1,b2……为偏回归系数,e表示去除m个自变量对y的影响后的随机误差,也称为残差。bi表示当其他p-1个变量的作用加以固定后,xi改变一个单位,y改变bi个单位。多元线性回归模型要满足以下条件:
1:y与x之间有线性关系
2:各观测值y之间相互独立
3:残差e服从均数为0,方差为σ2的正态分布,即对任意一组自变量x值,应变量y具有相同的方差,并服从正态分布。
例子:27名糖尿病患者的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖测量值如下表,建立血糖与其他几个指标的多元线性回归方程。
stata命令:regress y x1 x2 x3x4
结果:
F值=8.28,p值=0.0003,说明该回归方程具有统计学意义。与空腹血糖有相关意义的指标为x3,x4(p<0.05).胰岛素和糖化血红蛋白。