生存分析基础知识

文章详细介绍了生存分析的基本概念,包括生存函数、危险率函数、删失数据和非参数估计方法如KM估计。此外,还讨论了Cox比例风险模型在分组比较中的应用。内容涵盖了从理论基础到实证分析的全过程,包括数据集介绍、生存曲线绘制和不同模型的比较。
摘要由CSDN通过智能技术生成

本篇内容很乱很乱并且没啥逻辑,我的建议是别看!!!!

生存分析-目录

Chapter 1:生存分析-基础知识梳理

一、生存分析基本流程

生存分析常用于研究能够明确划分起止点的现象。

(一)研究目的

(常见研究目的)

a.描述生存过程:绘制出生存曲线、估计生存率、计算中位生存期、平均存活时间等。

b.比较不同处理组的生存率:对于不同的处理组,比较生存率是否有差,如:哪个治疗方案更优。

c.影响因素分析:研究某个或某些因素,对生存率或生存时间的影响作用。

(二)研究内容

确定内容:明确您的研究目的和要回答的问题。
数据收集:确定研究问题及相关的数据,这些数据通常包括个体的生存时间或观察时间,以及是否发生事件的信息(例如,患病或死亡)。
数据处理:对数据进行预处理,包括处理缺失值、异常值和选择合适的变量等。生存数据通常涉及到“右侧截尾”现象,即在研究结束前,部分个体可能还未发生事件,这需要得到妥善处理。

(三)研究方法

参数法(已知生存时间服从某一特定分布,如指数分布,Weibull分布等)、

非参数法(现实中多数生存时间并不符合分布,如KM估计)、

半参数法(规定了影响因素和生存状况间特定的关系,但是没有对时间的分布情况加以限定,如cox比例风险模型);

二、生存分析基本概念

(一)数据类型:删失vs截断

完全数据、删失数据、截断数据(此处我不太能准确描述,仅阐述个人理解)

  • 删失数据:只知道试验个体的部分信息,存在信息缺失,但对研究存在一定意义,不能完全删去。如:与样本失去联系、无法观察到结局(死于其他原因)、研究截至时个体仍然活着等。

类型:左删失、右删失、区间删失、广义右删失等;

  • 截断数据:在研究中,淘汰了一些对象(样本),使得研究者无法意识到他们的存在。类似“抛弃”,研究中直接排除这部分数据。例如:研究者在研究乳腺癌痊愈时间,规定只研究年龄大于30岁的人,那么患过乳腺癌且在30岁前已经治愈的这部分人群就被截断掉,不用于研究。

类型:左截断、右截断等。

不难看出,截断是主动的,研究者主动进行抉择;删失是被动的,研究者无法控制的。

(二)基本函数

1.累计分布函数F(X)、密度函数f(X)

  • 分布函数:反映寿命X的基本分布状况

2.生存函数S(X)

  • 生存函数(Survival function):生存时间大于x

S ( x ) = 1 − F ( x ) S(x)=1-F(x) S(x)=1F(x)

3.危险率函数h(X)

  • 危险率函数(Hazard function):(条件风险函数)在x处存活的个体,在下一个单位时间内瞬间死亡的概率
    h ( x ) = l i m Δ x → 0 f ( x < X < x + Δ x ∣ X > x ) Δ x h(x)=lim_{\Delta x\rightarrow 0}\frac{f(x<X<x+\Delta x|X>x)}{\Delta x} h(x)=limΔx0Δxf(x<X<x+ΔxX>x)

  • 连续型:
    h ( x ) = f ( x ) S ( x ) = − d l n [ S ( x ) ] / d x h(x)=\frac{f(x)}{S(x)}=-dln[S(x)]/dx h(x)=S(x)f(x)=dln[S(x)]/dx

  • 离散型: h ( x j ) = 1 − S ( x j ) ) S ( x j − 1 ) h(x_j)=1-\frac{S(x_j))}{S(x_{j-1})} h(xj)=1S(xj1)S(xj))

4.累计危险率函数H(X)

  • 累计危险率函数

  • 连续型:
    H ( x ) = ∫ 0 x h ( u ) d u = − l n S ( x ) H(x)=\int_{0}^{x}h(u)du=-lnS(x) H(x)=0xh(u)du=lnS(x)

  • 离散型:(为了保证函数的连续性)
    H ( x ) = ∏ x j ≤ x l n [ 1 − h ( u ) ] H(x)= \prod_{x_j\leq x}ln[1- h(u)] H(x)=xjxln[1h(u)]

(三)常用指标

  • 平均剩余寿命(mean residual life)
    m r l ( x ) = E ( X − x ∣ X > x ) mrl(x)= E(X-x|X>x) mrl(x)=E(XxX>x)
  • 连续型: m r l ( x ) = ∫ x ∞ ( u − x ) f ( u ) d u S ( x ) = ∫ x ∞ S ( u ) d u S ( x ) mrl(x)=\frac{\int_{x}^{\infty}(u-x)f(u)du}{S(x)}=\frac{\int_{x}^{\infty}S(u)du}{S(x)} mrl(x)=S(x)x(ux)f(u)du=S(x)xS(u)du

当x=0时,mrl(x)即为生存曲线所围面积(期望)
m r l ( 0 ) = ∫ 0 ∞ u f ( u ) d u = ∫ 0 ∞ S ( u ) d u mrl(0)=\int_{0}^{\infty}uf(u)du=\int_{0}^{\infty}S(u)du mrl(0)=0uf(u)du=0S(u)du

  • 寿命中位数:
    找分位数 S ( x 0.5 ) = 0.5 S(x_{0.5})=0.5 S(x0.5)=0.5

函数关系总结:四个函数可以彼此之间确定

(四)生存时间常见服从分布

1.指数函数

关键:危险率函数为一个常数,与生存时间无关(指数分布的无记忆性)

延申:两参数指数分布

背景:对电子元件,一般存在一个Gurantee time,在该期间不会产生故障,又称作最小存货时间。

2.韦布尔分布(Weibull Distribution)

此时危险率函数不再是常数,因而比指数分布有更广阔的应用

延申:三参数韦布尔分布

3.对数正态分布

危险率函数呈驼峰状,随着生存时间的增加,危险率函数首先达到最大值,随后递减

4.Log-logistic分布

Y=ln(X)服从Logistic分布

当γ>1时,危险率函数在x=0处为0,然后递增,到达峰值后递减

当γ<=1时,危险率函数单调下降

5.Gamma分布

常用于工业可靠性和人类生存的建模问题。其包含了指数分布和卡方分布。

当β>1时,危险率函数随着时间增加,单调上升,称为正老化

当β=1时,危险率函数为常数

当0<β<1时,危险率函数随着时间增加,单调下降,称为负老化

(五)三种常见回归模型(影响因素分析)

Q:为什么要建立回归模型?

A:因为在真实的研究当中,存在着多种多样影响着试验个体生存状态或未来生存前景的因素,
仅研究生存时间X服从的分布是远远不够的,需要建立回归模型以研究这些因素对个体生存的影响。

X X X - 生存时间; W W W - 误差;

Z Z Z - 解释变量/协变量/自变量:影响个体生存状态及未来生存前景的相关因素;

S 0 ( x ) S_0(x) S0(x) - 基本生存函数,除去这些影响因素后,同质的部分;

h 0 ( x ) h_0(x) h0(x) -基本危险率函数,除去这些影响因素后,同质的部分;

1.加速失效模型

Y = l n ( X ) Y=ln(X) Y=ln(X)

Y = μ + γ T Z + σ W Y=\mu+ \gamma^T Z +\sigma W Y=μ+γTZ+σW

该式被称为加速失效模型。

Z T ( x ) = ( Z 1 ( x ) , . . , Z p ( x ) ) Z^T(x)=(Z_1(x),..,Z_p(x)) ZT(x)=(Z1(x),..,Zp(x))为解释变量;

W是误差分布,常服从:正态分布(此时X服从对数正态);极值分布(此时X服从Weibull分布);Logistic分布(此时X服从log-logistic分布)。

模型“加速失效”的含义:

已知 S ( x ∣ Z ) = S 0 ( x ⋅ e x p ( μ + σ W ) ) = S 0 ( x ⋅ e x p ( − γ T Z ) ) S(x|Z)=S_0(x\cdot exp(\mu+\sigma W ))=S_0(x\cdot exp(-\gamma^T Z)) S(xZ)=S

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值