数据分析(一)

本文深入解析了生存分析中的关键概念,如TTT时间、PDF概率密度函数、CDF累积分布函数,以及生存函数和风险函数的定义及其关系。特别介绍了核密度估计在非参数估计中的应用,涵盖各种核函数和其在数据分布估计中的作用。
摘要由CSDN通过智能技术生成
生存分析

生存分析是研究直到发生一个或多个事件的预期时间的一系列统计分析方法。取名生存分析是最早应用于医学领域,研究病人从诊断出癌症后使用不同药物治疗后的死亡时间。

T T T 表示生存时间,是非负连续的随机变量

f ( t ) f(t) f(t)表示 T T T的概率密度函数 pdf

F ( t ) = P ( T ≤ t ) = ∫ 0 t f ( x ) d x F(t) = P(T\le t)=\int_0^t f(x)dx F(t)=P(Tt)=0tf(x)dx表示T的累积分布函数 cdf

生存分析中生存函数和风险函数

S ( t ) = 1 − F ( t ) S(t) = 1 - F(t) S(t)=1F(t) 生存函数,表示某样本生存时间大于 t t t的概率

λ ( t ) = f ( t ) S ( t ) \lambda(t) = \frac{f(t)}{S(t)} λ(t)=S(t)f(t)风险函数,风险函数的含义不那么直接,下面简单展开介绍:

由概率密度函数的定义得到:

f ( t ) = l i m Δ t → 0 F ( t + Δ t ) − F ( t ) Δ t = l i m Δ t → 0 P ( t ≤ T ≤ t + Δ t ) Δ t f(t) = lim_{\Delta t\rightarrow 0}\frac{F(t + \Delta t)-F(t)}{\Delta t} = lim_{\Delta t \rightarrow 0}\frac{P(t \le T \le t +\Delta t)}{\Delta t} f(t)=limΔt0ΔtF(t+Δt)F(t)=limΔt0ΔtP(tTt+Δt)

带入风险函数定义:

λ ( t ) = f ( t ) S ( t ) = l i m Δ t → 0 P ( t ≤ T ≤ t + Δ t ) Δ t S ( t ) \lambda (t) = \frac{f(t)}{S(t)} = lim_{\Delta t \rightarrow 0}\frac{P(t \le T \le t +\Delta t)}{\Delta t S(t)} λ(t)=S(t)f(t)=limΔt0ΔtS(t)P(tTt+Δt)

= l i m Δ t → 0 P ( t ≤ T ≤ t + Δ t ) Δ t P ( T ≥ t ) =lim_{\Delta t \rightarrow 0}\frac{P(t \le T \le t +\Delta t)}{\Delta t P(T \ge t)} =limΔt0ΔtP(Tt)P(tTt+Δt)

可见风险函数的的含义是:给定生存时间为t的样本在t时刻瞬间死亡的条件概率。

Λ ( t ) = ∫ 0 t λ ( t ) d t \Lambda(t) = \int_0^t\lambda(t)dt Λ(t)=0tλ(t)dt 表示累积风险函数,累积风险函数既不是概率密度,也不是累积概率,它是风险的一种度量,值越大,直到t时刻死亡的风险越大。

他们之间的关系:

F ′ ( t ) = f ( t ) F'(t) = f(t) F(t)=f(t)

S ′ ( t ) = − f ( t ) S'(t) = -f(t) S(t)=f(t)

λ ( t ) = f ( t ) 1 − F ( t ) = − ∂ ∂ t l o g ( 1 − F ( t ) ) = − ∂ ∂ l o g S ( t ) \lambda(t) = \frac{f(t)}{1-F(t)} = -\frac{\partial}{\partial t}log(1-F(t)) = -\frac{\partial}{\partial}logS(t) λ(t)=1F(t)f(t)=tlog(1F(t))=logS(t)

两边同时求定积分:

∫ 0 t λ ( t ) d t = ∫ 0 t − ∂ ∂ l o g S ( t ) d t \int_0^t\lambda(t)dt = \int_0^t-\frac{\partial}{\partial}logS(t)dt 0tλ(t)dt=0tlogS(t)dt

= − ( l o g S ( t ) − l o g S ( 0 ) ) = − l o g S ( t ) =-(logS(t)-logS(0)) = -logS(t) =(logS(t)logS(0))=logS(t)

l o g S ( t ) = − ∫ 0 t λ ( t ) d t = − Λ ( t ) logS(t) = -\int_0^t\lambda(t)dt=-\Lambda(t) logS(t)=0tλ(t)dt=Λ(t)

S ( t ) = e − Λ ( t ) S(t) = e^{-\Lambda(t)} S(t)=eΛ(t)

核密度估计(Kernel Density Estimation)

由样本求解随机变量分布的问题,分为参数估计方法和非参数估计方法。参数估计方法有包括生成模型和判别模型:

  • 生成模型:假定数据分布符合某种特定分布,然后在目标分布簇中确定分布参数。
  • 判别模型:需要假定作为判断依据的随机取值的样本在各个可能的类别中都服从特定分布

参数估计方法都会对引入一些基本假设,当这些假设与实际情况存在较大差距时,结果就会出现较大偏差。因此Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法。核密度估计方法对数据分布不引入任何假设,不利用数据分布的任何先验知识。

核密度估计给定样本估计随机变量概率密度函数的过程。给定随机变量 x x x的独立同分布样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn F ( x ) F(x) F(x)为随机变量 X X X的累积分布函数, f ( x ) f(x) f(x)为概率密度函数。

经验分布函数:

F n ( x ) = ∑ i = 1 n 1 x i ≤ x F_n(x)=\sum_{i=1}^n1_{x_i \leq x} Fn(x)=i=1n1xix

经验概率密度为:

f n ( x ) = F n ( x + h ) − F n ( x − h ) 2 h = 1 2 n h ∑ i = 1 n 1 x − h ≤ x i ≤ x + h = 1 n h ∑ i = 1 n 1 x − h ≤ x i ≤ x + h 2 f_n(x) = \frac{F_n(x + h)-F_n(x-h)}{2h}=\frac{1}{2nh}\sum_{i=1}^n1_{x - h\leq x_i\leq x+h}=\frac{1}{nh}\sum_{i=1}^n\frac{1_{x - h\leq x_i\leq x+h}}{2} fn(x)=2hFn(x+h)Fn(xh)=2nh1i=1n1xhxix+h=nh1i=1n21xhxix+h

其中 h h h为估计带宽,实际估计中 h h h的取值属于超参,不能太大,否则不满足概率密度函数定义,也不能太小,否则落入区间的样本稀疏导致误差较大。

我们用一个函数 K ( t ) K(t) K(t)替代经验密度函数中的 \frac{1_{x - h\leq x_i\leq x+h}}{2}$,则得到核函数估计:

f ^ ( x ) = 1 n h ∑ i = 1 n K ( x − x i h ) \hat{f}(x)=\frac{1}{nh}\sum_{i=1}^nK(\frac{x-x_i}{h}) f^(x)=nh1i=1nK(hxxi)

其中 K ( t ) K(t) K(t)就称为核函数。

在经验密度函数里,每一个落到窗口 [ x − h , x + h ] [x-h, x+h] [xh,x+h]内的样本 x i x_i xi f ( x ) f(x) f(x)具有相同的投票权重 1 / 2 1/2 1/2,其他的样本权重为零。引入和函数后,可结合先验信息进行核函数的设计,比如越是靠近 x x x的样本 x i x_i xi权重较大,越是远离 x x x的样本 x i x_i xi权重越小。

核函数有很多种,如 Uniform(均匀核函数)、Triangle(三角核函数)、Epanechnikov(伊番科尼可夫核函数)、Quartic(Biweight)、Triweight、Gaussian(高斯核函数)、Cosine(余弦核函数)等。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值