论文阅读”A deep variational approach to clustering survival data“(ICLR2022)

论文标题

A deep variational approach to clustering survival data

论文作者、链接

作者:

Manduchi, Laura and Marcinkevi{\v{c}}s, Ri{\v{c}}ards and Massi, Michela C and Weikert, Thomas and Sauter, Alexander and Gotta, Verena and M{\"u}ller, Timothy and Vasella, Flavio and Neidert, Marian C and Pfister, Marc and others

链接:https://arxiv.org/abs/2106.05763


Introduction逻辑(论文动机&现有工作存在的问题) 

生存分析(Survival analysis),在很多医疗场景下有广泛的应用,用来推断解释变量(explanatory variables )和潜在的检查结果(censored survival outcome)之间的关系——后者表示某一事件发生的时间,如死亡或癌症复发,并在只知道部分相关情况时可以审查出来——用机器学习来学习这些数据的非线性关系

聚类——不适用于生存结果(the survival outcomes)——无法保证聚类结果中的子簇是与患者的信息相关——本文专注于聚类survival data的半监督学习方法,该方法联合考虑解释变量和审查结果作为患者状态的指标

图1描述了这个聚类问题:整个患者群体由三个group组成,其特征是协变量和survival之间的不同关联,导致不同的临床情况

对于survival data的聚类——现有方法的局限:在高纬度的容量有限,无结构的数据以及专注于发现纯结果驱动的聚类——当仅凭survival distribution不足以对人群进行分层时,后者可能无法应用——相似survival outcome的患者可能需求不同的治疗手段

论文核心创新点

提出一个survival聚类方法,联合建模解释变量和censored survival outcomes


相关工作

针对survival data的聚类


论文方法

 预备知识

对于每一个患者有N个三元组的数据集\mathcal{D}=\left\{\left(\boldsymbol{x}_{i}, \delta_{i}, t_{i}\right)\right\}_{i=1}^{N}x_i代表特征的可解释变量。\delta _i是检查指示变量,如果第i个患者的survival time被审查了,值为0,否则值为1。t_i是潜在的检查survival time。在survival analysis上用一个最大似然方法,来建模一个survival distribution,即S(t \mid \boldsymbol{x})=P(T>t \mid \boldsymbol{x})

对于survival analysis的两个主要的挑战,(i)survival times 的检查(ii)x,t之间的复杂非线性关系。当对survival data进行聚类的时候,我们额外的考虑了一个在训练过程中观测到的潜在聚类分配变量c_i \in \{1,\dots,K\}K是簇的总数目。于是目标问题变成了:(i)推测未观测到的聚类分布(ii)在给定x_i,c_i的情况下对survival distribution进行建模

生成模型

 假设数据是由下列步骤随机生成的。

1,从分类分布c \sim p(c ; \pi)=\pi_{c}中采样簇分布c \in \{1,\dots,K\}

2,从高斯分布生成一个连续的潜在嵌入\boldsymbol{z} \in \mathbb{R}^J,这个嵌入的均值和方差依赖于采样的簇:c:\boldsymbol{z} \sim p\left(\boldsymbol{z} \mid c ;\left\{\boldsymbol{\mu}_{1}, \ldots, \boldsymbol{\mu}_{K}\right\},\left\{\boldsymbol{\Sigma}_{1}, \ldots, \boldsymbol{\Sigma}_{K}\right\}\right)=\mathcal{N}\left(\boldsymbol{z} ; \boldsymbol{\mu}_{c}, \boldsymbol{\Sigma}_{c}\right)

3,解释变量\boldsymbol{x}是从在\boldsymbol{z}上的条件分布生成的,\boldsymbol{z}: \boldsymbol{x} \sim p(\boldsymbol{x} \mid \boldsymbol{z} ; \boldsymbol{\gamma}),其中对于二值特征有p(\boldsymbol{x} \mid \boldsymbol{z} ; \boldsymbol{\gamma})=\operatorname{Bernoulli}\left(\boldsymbol{x} ; \boldsymbol{\mu}_{\boldsymbol{\gamma}}\right),对于实值特征有\mathcal{N}\left(\boldsymbol{x} ; \boldsymbol{\mu}_{\boldsymbol{\gamma}}, \operatorname{diag}\left(\boldsymbol{\sigma}_{\boldsymbol{\gamma}}^{2}\right)\right)

至此,\boldsymbol{\mu_\gamma},\boldsymbol{\sigma^2_\gamma}f(\boldsymbol{z};\boldsymbol{\gamma})生成,为一个解码器神经网络,参数为\gamma

4,survival time t依赖于聚类分布c,潜在变量z和检查指示变量\delta,即t \sim p(t|z,c)

Survival Model

p(t|z,c)参考于具体的簇的survival model。假设给定z,c,依据韦伯分布的未审查的survival time由Weibull(softplus(z^\top,\beta_c),k)给定,其中softplus(x)=log(1+exp(x))k是形状参数,\beta_c是具体的簇的survival参数。 为了简洁省略偏置项\beta_{c,0}。观察softplus(z^\top\beta_c)项,对应的是韦伯分布的尺度参数。带有尺度参数\lambda以及形状k的韦伯分布,有一个概率稠密函数,在x\geq 0的情况下,有f(x ; \lambda, k)=\frac{k}{\lambda}\left(\frac{x}{\lambda}\right)^{k-1} \exp \left(-\left(\frac{x}{\lambda}\right)^{k}\right)。于是,从下列分布对right-censoring区域做出调整:

 其中,\boldsymbol{\beta}=\left\{\boldsymbol{\beta}_{1}, \ldots, \boldsymbol{\beta}_{K}\right\} ; \lambda_{c}^{\boldsymbol{z}}=\text { softplus }\left(\boldsymbol{z}^{\top} \boldsymbol{\beta}_{c}\right) ;并且S(t \mid \boldsymbol{z}, c)=\int_{t=t}^{\infty} f\left(t ; \lambda_{c}^{\boldsymbol{z}}, k\right)是surviva函数。至此,使用p(t|z,c)作为p(t|z,c;\beta,k)的缩写。本文中只考虑right-censoring的情况

联合概率分布

x,t的联合概率分布写成p(\boldsymbol{x}, t)=\int_{\boldsymbol{z}} \sum_{c=1}^{K} p(\boldsymbol{x}, t, \boldsymbol{z}, c)=\int_{\boldsymbol{z}} \sum_{c=1}^{K} p(\boldsymbol{x} \mid t, \boldsymbol{z}, c) p(t, \boldsymbol{z}, c)。值得注意的是x,t是与给定的z所独立的。我们重写联合概率分布,参考似然函数,有:

置信下界 

 根据之前数据生成的假设,目标是推理参数\pi,\mu,\Sigma,\beta。由于方程2中的似然函数是难以处理的,我们将数据的对数边际概率的下界最大化:

 我们给出了具有变化分布的观测值z和c的近似概率q(\boldsymbol{z}, c \mid \boldsymbol{x}, t)=q(\boldsymbol{z} \mid \boldsymbol{x}) q(c \mid \boldsymbol{z}, t)。其中第一项是由神经网络参数化的编码器。第二项等于真实概率p(c|z,t):

 因此,证据下界(ELBO)可表示为:

 缺失的Survival Time

硬聚类分配可由式4的分布p(c|z, t)计算。然而,在测试时可能无法观察到存活时间;
而我们对分布p(c|z, t)的推导依赖于p(t|z, c)。因此,当个体的生存时间未知时,我们使用贝叶斯规则计算,即:


一句话总结

说实话没看懂

论文好句摘抄(个人向)

(1)Clustering, on the other hand, serves as a valuable tool in data-driven discovery and subtyping of diseases

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值