Cox回归由于其复杂性和相对较少应用(除了临床研究),很多统计学习者很少接触过和应用Cox回归,对其原理与应用也不甚了解,一般医学教科书一写到Cox回归,马上会涉及到几个令人生畏的名称:比如半参数回归、风险函数以及那无法理解的Cox回归方程,当然Cox回归全称也令人发蒙:"Cox比例风险模型"。
但随着队列研究和中长期随访的实验性研究越来越多,了解Cox回归是一项必要的学习内容。
本文撇开复杂原理,简单通俗地介绍下Cox回归,特别是它的应用。除此之外,必须值得了解的一个非常重要的指标——HR值。
目 录
1. Cox回归与HR值
2. 生存分析的目的与Cox回归的作用
3. Cox回归的SPSS操作
3.1 分析案例
3.2 统计策略
3.3 Cox回归SPSS操作入口
3.4 Cox回归具体设置
4. Cox回归分析结果及其解读
4.1 总体效果评价
4.2 生存曲线图
4.3 Cox回归的主要结果:HR、P值和置信区间
4.4 Cox回归分析结果及其解读
5. 进一步解读
5.1 Cox回归比较的是"死亡"速度,也是在比较生存时间、生存率
5.2 Cox回归受到等比例风险假定的限制,应用请慎重
5.3 LogRank分析与Cox回归的异同
5.4 Cox回归广泛应用于随访性研究
1. Cox回归与HR值
在科学研究中,经常遇到分类的结局,主要是二分类结局(阴性/阳性;生存/死亡),研究者可以通过Logistic回归来探讨影响结局的风险因素,或者通过构建预测模型来预测新患者的预期生存时间。
但很多时候Logistic回归方法无法使用,如在随访期中,绝大部分对象都发生阳性结局(患者全部治愈或者患者几乎全都死亡);如比较两种治疗手段治疗新冠肺炎效果(如瑞德西韦组和安慰剂组),可能在1个月的效果分别是95%和90%,在统计学上可能没有差异。
Logistic回归是关于率的分析,探讨影响发生率的因素,但发生率的研究不能说明一切。
我们还可以从发生率发生的速度来分析,探讨影响发生速度的因素,这便是Cox回归基本思维。
Cox回归是生存分析的重要方法,全称是"Cox比例风险模型"。它主要探讨终点事件发生速度有关的因素。通俗来说,它可以探讨,到底哪类群体的"死亡"速度更快、到底什么因素影响了"死亡"速度。
生存分析的"死亡"指的是,阳性终点事件的发生。死亡速度指的是,t时刻存活的个体在t时刻的瞬时死亡(阳性事件发生)率,可以理解为一组人群在不同时刻的阳性终点事件发生的速度。
具体可以用以下函数来表达:
在专业上,我们把它称之为风险h(t),上述公式称之为风险函数(hazard function)。风险值随着时间的变化而变化,一般情况下,随访前期,"死亡"速度较快。
因此,Cox回归是关于"死亡"风险的研究。但是上述公式无法将死亡风险与相关因素建立起联系。
终于在1972年,由英国统计学家D.R.CoxCox建立了新的函数,来解决这个问题。
或者写成:
h(t)便是研究对象的风险函数,即"死亡"速度,它随着时间的变化而变化。h0(t)是回归方程的截距,初学者完全可以忽略;x1,x2,…xj是自变量,β1,β2…,βj为回归系数。
可以发现,Cox回归是一种嵌套线性方程的模型。它通过指数转换,建立了新的线性回归方程,用于探讨自变量x对因变量h(t)的影响,一种非线性的影响。
我举个简单的单因素Cox回归分析案例吧。
比较男性和女性白血病患者缓解时间(天)的差异性,各自的生存时间如下:
男性:4,5,9,10,11,12,13, 20+,28,28,28,29,31,32,37,41,41,57,62,74,109,100,139,158+
女性:8,10,10,12,14,20,48,70,75,99,103