matlab删失数据威布尔,随机删失数据下基于EM算法的Weibull分布参数估计

1引言生存数据分析的统计方法在生物医学和可靠性研究中,甚至在犯罪学、社会学、市场学以及健康保险领域的研究中,有重要的应用.但是,在生存数据的观测中常常由于动物的意外死亡、被调查者拒绝回答有关调查项目、在研究期间结束时某些个体还没有出现所关心的事件等原因,导致观测的生存数据出现删失.由于删失数据蕴涵了与完全数据不同的信息,如果删除进而不考虑这部分数据所蕴涵的信息作统计分析,可能会造成信息的损失和分析结果的偏颇.另外,当适当的模型或分布可用来拟合数据或者可以假定数据来自某种分布的总体时,我们自然使用参数估计方法,而实际问题中也常常出现不完全数据.在处理这类问题时,Dempster等人在文[1]中提出的EM算法是进行极大似然估计的一个非常一般的迭代算法.文献[2]将其用于处理区间型数据和成败型数据下Weibull分布参数的估计.Weibull分布是生存分析中最重要的常用分布之一.生存分析中的观测数据具有样本小、数据随机删失的特点.而目前这类问题所使用的参数估计方法或过于简单以致失去精确性或过于复杂[3].在本文中,结合EM算法,我们给出随机删失数据下Weibull分布的参数估计方法,得到了估计量所满足的方程,从而可以通过求解方程(组)得到参数估计.2EM算法假定随机变量Y服从概率密度f(y;),其中.记Y=(y1,…,yn)为观测数据所组成的向量(为记号方便不区分随机变量与观测向量).假设观测向量Y中某些元素没有被观测到,被观测到的只是它的一个函数Z=Z(Y),记为Z=(z1,…zm).作为特殊情形,Z=Y表示观测到的就是Y的本身.我们称Y为完全数据,Z为不完全数据.我们的目的是在得到不完全数据Z的情况下使用极大似然准则估计模型参数,也就是求^,使得lnf(Z|^)=max[lnf(Z|)](1)由于数据Z的不完全和f(Z|)形式上的复杂,因此采用一般的优化方法常常使算法变得非常复杂.克服这些困难的一个较好的方法是使用EM算法[4].1977年,Dempster,Larid和Rubin首次给出了“期望-极大值”算法的最一般形式,并将其命名为EM算法.该算法强调迭代的两个步骤,即E步和M步,并且要求在E步和M步之间不断迭代直到收敛为止.设完全数据Y的密度函数为f(y|).记(i)为第i+1次迭代开始时参数的估计值,则第i+1次迭代的两步为:E步:在给定不完全数据和前一次迭代所得到的参数估计的情况下,计算完全数据对应的对数似然函数的条件期望:Q(|(i))Ez[lnf(Y|)|(i),Z](2)M步:极大化对数似然函数以确定参数的值,并用于下步的迭代:Q((i+1)|(i))=maxQ(|(i))(3)如此便形成了一次迭代(i)(i+1).将上述E步和M步进行迭代直至(i+1)-(i)或者Q((i+1)|(i))-Q((i)|(i))充分小时停止.记L(Y|)=lnf(Y|).文献[4]证明了EM算法在每一次迭代后均提高f(Y|(i))的函数值.如果f(Y|)有上界,则L(Y|(i))收敛到某个L*.在关于L的很一般的条件下,由EM算法得到的估计序列(i)的收敛值^是L的稳定点.值得注意的是,EM算法绝非通过修正不完全数据来增加信息,所补入的数据实际上是一种经过加工的估计值.这种估计是对原有数据所带来信息和先验信息的充分利用.3Weibull分布参数的估计设个体生存时间T的概率密度函数为f(t),分布函数为F(t).Weibull分布的密度函数为f(t)=t-1exp(-t)0t0,t<0(4)其中>0,>0.这里的相当于某些文献(如[3])中的.假设我们

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值