Kaplan–Meier estimator 介绍
本文主要便于自己理解推导,并不完善,参考如下资料:
https://en.jinzhao.wiki/wiki/Kaplan%E2%80%93Meier_estimator
总的公式如下:
下面对这个公式进行解读:
首先定义一下问题:
问题的定义还是很清楚的。需要注意的是这里的生存函数S(t)是大于t的概率,而t我们这里当作是离散的。
对这个问题怎么估计呢?最简单直接的方法如下:
首先介绍如下规律:
Proposition1 很容易理解。下面这句呢?就是对于给定的t,选出
c
k
≥
t
c_k \ge t
ck≥t的那些k,对于这个t,就有下面的概率的关系。怎么理解:真实值大于t,那么观测值肯定也会大于t,因此两者大于t的概率是相等的。下面是简单的估计方法:
怎么理解呢?就是构造了
X
k
X_k
Xk这样一个0-1变量,然后这个变量服从伯努利分布,且
X
k
=
1
X_k=1
Xk=1的概率就是关于真实变量的分布函数的取值:S(t-1)。那么根据观测亮,就可以估计出这个概率值了。
这个估计有如下几个问题:
受m(t)的影响比较大,导致对于有些t,估计的样本可能不足。而且这种估计忽略了在t之前就被截断的数据,这些数据对于估计S(t)还是有一定信息量的,而这种简单的估计直接忽略了这些信息量。那么如何用到这些信息量呢,这正是KM估计做的:
KM估计的思路如上,还是比较好理解的。注意风险函数的相关定义。
因此可以得到KM估计的求法:
进行适当的简化变形,就得到的文章开头的式子。
另一种推断方法:
生存函数和风险函数的关系是定义好的。然后风险函数可以根据极大似然估计得到,然后就可以得到生存函数的估计了。
上面只是估计了期望吧,方差怎么估计呢: