9. 常用统计分析方法——Poission回归模型

目录

1.1 概率统计

1.2 poisson分布的参数估计

补充:正态分布的置信区间的相关函数

1.3 poission分布的样本均数与总体均数的比较

1.4 两独立样本的poission分布的假设检验

1.5 Poission 回归模型

1.6 过度离散的判定及处理

1.7 对数线性模型


在医学研究中经常遇到计数资料(count data),比如某罕见病在某个时间段的发病数、某病患者在一年内住院次数等。这种计数资料中事件的发生的多少与观察的单位有关,即观察多长时间、多大面积及体积等。通常以密度而不是概率作为测度,密度可以看作很小一个单位内某事件发生的频数,也叫发生率。

poission分布

基本概念:描述某罕见实践发生的次数的概率

从n各样本中某一事件发生的阳性数服从二项分布X~B(n,Π)

阳性事件发生率Π=x/n,当n很大,x很小时,Π趋近于0,这时就可以使用poission分布,总体均数u=nΠ
X~P(u),u总体均数

1.1 概率统计

案例:某纯净水厂生成的矿泉水,每1ml11个大肠杆菌,现在检出0个,1个,以及2个的概率时多少?

密度函数dpois(x,u), x为样本数,u为总体均值,给定u值时,取值等于x时的概率

dpois(0,1)#P(x=0)的概率
dpois(1,1)#P(x=1)的概率

分布函数ppois(x,u),给定u值时,取值小于等于x时的概率

ppois(1,1) #P(x<=1的概率,即是P(x=0)+P(x=1))
1-ppois(1,1) #P(x>=2)的概率
1-ppois(2,1) #P(x>2)的概率

Poission分布分条件:

平稳性:x的取值与观察单位的位置无关,只与观察单位大小有关
独立性:在某个观察单位上x的取值与前面各观察单位上x的取值独立。
普通性:在充分小的观察单位上x的取值最多为1

poission分布的特点

  1. 离散分布;
  2. 只取决于u,u很小是分布很偏,当u增大时,逐渐趋于对称;
  3. 在x=u和x=u-1处达到峰值,且有P(x=u)=P(x=u-1);
  4. 分布的总体方差与总体均数是相等的
  5. 观察结果具有可加性

当poission分布的u很大时(u>20),可以近似看作正态分布进行计算

1.2 poisson分布的参数估计

1.点估计,以样本计数作为总体估计值;
2.区间估计:计算95%的可信区间,小样本时查表,大样本时(x>50),可以使用正态近似法

install.packages("epitools")
library(epitools)
pois.exact(x=3,pt=1,conf.level=0.95)

比如抽样中1ml水中检测到3各大肠杆菌,估计总体均数的95%可信区间,x=3远小于5-,使用poisson分布检测

当待估计的总体均数与样本均数的观察单位不同时,要根据样本观察单位进行估计;然后把估计结果单位转化,
比如:每30分钟的脉冲数为490,求每10分钟的脉冲数的置信区间

pois.exact(x=490,pt=1,conf.level = 0.95)

计算10分钟就使用30分钟除以3
或 

pois.approx(x=490,pt=1,conf.level = 0.95)
#pois正态近似法计算,pt=1表示490的单位为1,现在要计算10分钟,30分钟是3个100分钟,所以490是3个单位的值,pt=3
pois.approx(x=490,pt=3,conf.level = 0.95)
  • pois.exact(x=事件发生数,pt=观察单位数,conf.level=置信水平)#利用possion精确计算置信区间
  • pois.approx#利用正态近似法计算置信区间
  • zsum.test(mean.x=x的均值,sigma.x=x的标准差,n.x=x的样本量,mean.y=y的均值,sigma.y=y的标准差,n.y=y的样本量,alternative=假设说明,mu=假设指定的均值或均值差,conf.level=置信水平)
  • 因为x=490>50,可以使用正态近似估计法

补充:正态分布的置信区间的相关函数

#rnorm()按正态分布生成随机数
#dnorm(n,mean=,sd=)获取正态分布函数在x=n时的概率密度
dnorm(0,mean=0,sd=1)
#pnorm(n,mean=,sd=)正态分布从负无穷到n累计的概率
#qnorm正态分布概率为n时,对应的x值坐标
qnorm(0.975,mean=490,sd=sqrt(490))
qnorm(0.025,mean=490,sd=sqrt(490))

1.3 poission分布的样本均数与总体均数的比较

案例1:一般孕产妇死亡率为56/10万,某地推行孕产妇管理试点,为了研究是否低于一般孕产妇死亡率,随机抽取7500个孕产妇,其中3人发生死亡
(1)统一单位,将3/7500转化为10万单位,即40/10万
(2)若H0成立,则该地区死亡率为56/10万*7500=4.2人

ppois(3,4.2)

计算概率密度,不能用40和56比较,因为不能随意扩大样本抽样结果,因为样本死亡率不清楚,不能随意扩大。但总体死亡率明确可以缩小到样本量对应的死亡数。

案例2:某水源随机抽样2ml,测得细菌数分别是225,190,240,232,饮用水的标准为100ml细菌总数不超过100个,是否满足饮用水标准?
(1)计算平均的细菌数每毫升

x=(225+190+240+232)/(2*4)

(2)若H0成立,则该水源等于合格标准,因为样本量>30,所以可以近似正态分布,总体均值为100,方差为100

y=sqrt(100)#计算标准差

(3)进行Z检验

install.packages("PASWR2")
library(PASWR2)
zsum.test(mean.x=x,sigma.x=y,n.x=8,alternative="greater",mu=100,conf.level=0.95)

alternative表示需要比较单侧还是双侧,"greater","less","two.sided";mu表示假定比较的对象值,这里时总体均数;n.x是因为单位为1ml所以相当于八个样本

1.4 两独立样本的poission分布的假设检验

  • 当两个样本均数比较大时(X1>30,X2>30),可以使用近似正态分布计算
  • 两样本均数差X1-X2满足均数为u1-u2,方差为u1+u2的正态分布,因为总体均数未知所以样本均数x代替总体均数u。当H0成立时,X1=X2,则Z满足标准正态分布
  • 若选定的两个样本单位不同,需要统一单位后进行统计推断。前提时两个样本比较大,可以使用正态近似的方法。

案例:各取10份样本,每份1ml,甲水源一共检测580个细菌,乙水源一共检测出432个细菌,比较两水源是否相同

zsum.test(mean.x=580,sigma.x=sqrt(580),n.x=1,
          mean.y=432,sigma.y=sqrt(432),n.y=1,
          alternative="two.sided",mu=0,conf.level=0.95)

zsum.test(mean.x=58,sigma.x=sqrt(58),n.x=10,
          mean.y=43.2,sigma.y=sqrt(43.2),n.y=10,
          alternative="two.sided",mu=0,conf.level = 0.95)

1.5 Poission 回归模型

1.6 过度离散的判定及处理

1.7 对数线性模型

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值