单参数贝叶斯分析实例

研究背景

以一个泊松分布的贝叶斯模型进行演示说明,但是该模型涉及到层次模型的知识。调查美国各个地方的癌症死亡率。追踪10年,癌症死亡率的计算遵循下面的公式,
θ j = y j 10 n j \theta_j=\frac{y_j}{10n_j} θj=10njyj
这里统计的单位是"county",有点类似于县城。其中, θ j \theta_j θj是第 j j j个county癌症死亡率, y j y_j yj是癌症死亡人数, n j n_j nj是county的样本数目。全国的平均值是 5 × 1 0 − 5 5×10^{-5} 5×105

经过统计,将各个癌症发生比例显著高于国家基本水平的地区标黑,结果如下,
在这里插入图片描述
结果显示,被称为"Great Plains"的美国中西部地区癌症死亡率高的,所以很多人会认为这与落后的基础设施和医疗建设相关。但是如果再看一下癌症低发的地区,会有新的发现,
在这里插入图片描述
中西部地区同样是癌症低死亡率的地方,这与上面的图片得到的结论是相互矛盾的。

问题原因

造成这一问题的原因归根结底是因为"sample size"所导致,因为这项研究是以"county"为单位的,翻译过来就是小区域,对于不同地区的调查的样本量 n j n_j nj是不同的,这对结果造成了很大的影响。

以小的county为例,若 n j = 1000 n_j=1000 nj=1000

  • y j = 0 y_j=0 yj=0时,raw death rate的计算 y j 10 n j = 0 10000 = 0 \frac{y_j}{10n_j}=\frac{0}{10000}=0 10njyj=100000=0,这个county的癌症比率为0。
  • y j = 1 y_j=1 yj=1时,raw death rate的计算 y j 10 n j = 1 10000 = 1 0 − 4 \frac{y_j}{10n_j}=\frac{1}{10000}=10^{-4} 10njyj=100001=104,已经是国家平均死亡率的2倍。
  • y j = 2 y_j=2 yj=2时,raw death rate的计算 y j 10 n j = 2 10000 = 2 × 1 0 − 4 \frac{y_j}{10n_j}=\frac{2}{10000}=2×10^{-4} 10njyj=100002=2×104,已经是国家平均死亡率的4倍。

而对于一个大的county而言,小的数值的变化对其影响不大。直接使用经验公式求取癌症死亡率的方法是存在极大偏差的,需要对现有的统计方法进行改进。

模型改进

因为直接使用最开始的统计公式对于不同样本量的county是不公平的,即先验概率无法表达真实的数据,所以建立更加规范的数据模型。

美国统计的国家的整体癌症发生可以看做是一个泊松分布,
y j ∼ P o i s s o n ( 10 n j θ j ) y_j\sim Poisson(10n_j\theta_j) yjPoisson(10njθj)
其中 θ j \theta_j θj是未知的,泊松分布的共轭先验分布是Gamma分布(具体参考),故将 θ j \theta_j θj的先验分布设定为一个Gamma分布,用一种比较粗暴的方式确定Gamma分布的参数,
在这里插入图片描述
画出每个county每10000人中患癌人数的频数分布图,得到 α = 20 \alpha=20 α=20 β = 430000 \beta=430000 β=430000。虽然这种方式看似有效,但是更好的方法会在以后层次模型的笔记中说明。

经过推导后,死亡率 θ j \theta_j θj的后验概率服从
θ j ∣ y j ∼ G a m m a ( 20 + y j , 430000 + 10 n j ) \theta_j|y_j\sim Gamma(20+y_j,430000+10n_j) θjyjGamma(20+yj,430000+10nj)
这样做的好处依旧可以以小的county进行解读,
n j = 1000 n_j=1000 nj=1000

  • y j = 0 y_j=0 yj=0时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 20 440000 \frac{20+y_j}{430000+10n_j}=\frac{20}{440000} 430000+10nj20+yj=44000020,这个county的癌症比率为 4.55 × 1 0 − 5 4.55×10^{-5} 4.55×105
  • y j = 1 y_j=1 yj=1时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 21 440000 \frac{20+y_j}{430000+10n_j}=\frac{21}{440000} 430000+10nj20+yj=44000021,这个county的癌症比率为 4.77 × 1 0 − 5 4.77×10^{-5} 4.77×105
  • y j = 2 y_j=2 yj=2时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 22 440000 \frac{20+y_j}{430000+10n_j}=\frac{22}{440000} 430000+10nj20+yj=44000022,这个county的癌症比率为 5.00 × 1 0 − 5 5.00×10^{-5} 5.00×105

在先验分布的情况下,对于一个小的county而言,小的数值的变化对其影响被显著消除。

使用贝叶斯分析前和后的效果,使用图形化的方式展示,

  • 使用前
    在这里插入图片描述
  • 使用后
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值