研究背景
以一个泊松分布的贝叶斯模型进行演示说明,但是该模型涉及到层次模型的知识。调查美国各个地方的癌症死亡率。追踪10年,癌症死亡率的计算遵循下面的公式,
θ
j
=
y
j
10
n
j
\theta_j=\frac{y_j}{10n_j}
θj=10njyj
这里统计的单位是"county",有点类似于县城。其中,
θ
j
\theta_j
θj是第
j
j
j个county癌症死亡率,
y
j
y_j
yj是癌症死亡人数,
n
j
n_j
nj是county的样本数目。全国的平均值是
5
×
1
0
−
5
5×10^{-5}
5×10−5。
经过统计,将各个癌症发生比例显著高于国家基本水平的地区标黑,结果如下,
结果显示,被称为"Great Plains"的美国中西部地区癌症死亡率高的,所以很多人会认为这与落后的基础设施和医疗建设相关。但是如果再看一下癌症低发的地区,会有新的发现,
中西部地区同样是癌症低死亡率的地方,这与上面的图片得到的结论是相互矛盾的。
问题原因
造成这一问题的原因归根结底是因为"sample size"所导致,因为这项研究是以"county"为单位的,翻译过来就是小区域,对于不同地区的调查的样本量 n j n_j nj是不同的,这对结果造成了很大的影响。
以小的county为例,若 n j = 1000 n_j=1000 nj=1000,
- 当 y j = 0 y_j=0 yj=0时,raw death rate的计算 y j 10 n j = 0 10000 = 0 \frac{y_j}{10n_j}=\frac{0}{10000}=0 10njyj=100000=0,这个county的癌症比率为0。
- 当 y j = 1 y_j=1 yj=1时,raw death rate的计算 y j 10 n j = 1 10000 = 1 0 − 4 \frac{y_j}{10n_j}=\frac{1}{10000}=10^{-4} 10njyj=100001=10−4,已经是国家平均死亡率的2倍。
- 当 y j = 2 y_j=2 yj=2时,raw death rate的计算 y j 10 n j = 2 10000 = 2 × 1 0 − 4 \frac{y_j}{10n_j}=\frac{2}{10000}=2×10^{-4} 10njyj=100002=2×10−4,已经是国家平均死亡率的4倍。
而对于一个大的county而言,小的数值的变化对其影响不大。直接使用经验公式求取癌症死亡率的方法是存在极大偏差的,需要对现有的统计方法进行改进。
模型改进
因为直接使用最开始的统计公式对于不同样本量的county是不公平的,即先验概率无法表达真实的数据,所以建立更加规范的数据模型。
美国统计的国家的整体癌症发生可以看做是一个泊松分布,
y
j
∼
P
o
i
s
s
o
n
(
10
n
j
θ
j
)
y_j\sim Poisson(10n_j\theta_j)
yj∼Poisson(10njθj)
其中
θ
j
\theta_j
θj是未知的,泊松分布的共轭先验分布是Gamma分布(具体参考),故将
θ
j
\theta_j
θj的先验分布设定为一个Gamma分布,用一种比较粗暴的方式确定Gamma分布的参数,
画出每个county每10000人中患癌人数的频数分布图,得到
α
=
20
\alpha=20
α=20和
β
=
430000
\beta=430000
β=430000。虽然这种方式看似有效,但是更好的方法会在以后层次模型的笔记中说明。
经过推导后,死亡率
θ
j
\theta_j
θj的后验概率服从
θ
j
∣
y
j
∼
G
a
m
m
a
(
20
+
y
j
,
430000
+
10
n
j
)
\theta_j|y_j\sim Gamma(20+y_j,430000+10n_j)
θj∣yj∼Gamma(20+yj,430000+10nj)
这样做的好处依旧可以以小的county进行解读,
若
n
j
=
1000
n_j=1000
nj=1000,
- 当 y j = 0 y_j=0 yj=0时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 20 440000 \frac{20+y_j}{430000+10n_j}=\frac{20}{440000} 430000+10nj20+yj=44000020,这个county的癌症比率为 4.55 × 1 0 − 5 4.55×10^{-5} 4.55×10−5。
- 当 y j = 1 y_j=1 yj=1时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 21 440000 \frac{20+y_j}{430000+10n_j}=\frac{21}{440000} 430000+10nj20+yj=44000021,这个county的癌症比率为 4.77 × 1 0 − 5 4.77×10^{-5} 4.77×10−5。
- 当 y j = 2 y_j=2 yj=2时,死亡率的后验概率计算 20 + y j 430000 + 10 n j = 22 440000 \frac{20+y_j}{430000+10n_j}=\frac{22}{440000} 430000+10nj20+yj=44000022,这个county的癌症比率为 5.00 × 1 0 − 5 5.00×10^{-5} 5.00×10−5。
在先验分布的情况下,对于一个小的county而言,小的数值的变化对其影响被显著消除。
使用贝叶斯分析前和后的效果,使用图形化的方式展示,
- 使用前
- 使用后