Mixed effects models 回顾(六)
- Meet the expenential family
A.F. Zuur et al., Mixed Effects Models and Extensions in Ecology with R, 11 Statistics
Meet the expenential family
广义线性/加性模型(generalised linear regression/additive model, GLM, GAM)的构建需首先明确响应变量的分布形式。
The Normal Distribution
正态分布有两个参数,均值 μ \mu μ 以及方差 σ 2 \sigma^2 σ2,其密度函数为:
f ( X i ; μ , σ ) = 1 σ 2 π e − ( x i − μ ) 2 2 σ 2 f(X_i; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x_i - \mu)^2}{2\sigma^2}} f(Xi;μ,σ)=σ2π1e−2σ2(xi−μ)2
E ( X ) = μ , v a r ( X ) = σ 2 E(X) = \mu, var(X) = \sigma^2 E(X)=μ,var(X)=σ2
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mKxiXzvx-1690773799675)(image/Chapter8_Mixedeffectsmodel/1690184344567.png)]
The Poisson Distribution
泊松分布只有1个参数,均值及方差均为 μ \mu μ。泊松分布的典型用处是计数数据,其密度函数是 (y ≥ 0,y是整数):
f ( x ; μ ) = μ x × e − μ x ! f(x; \mu) = \frac{\mu^x \times e^{-\mu}}{x!} f(x;μ)=x!μx×e−μ
E ( X ) = μ v a r ( X ) = μ E(X) = \mu var(X) = \mu E(X)=μ var(X)=μ
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qqup12ea-1690773799676)(image/Chapter8_Mixedeffectsmodel/1690184446926.png)]
需注意的是,泊松分布适用于 ≥ 0 的整数。
The Negative Binomial Distribution (负二相分布)
负二项分布有两个参数,其密度函数是:
f ( y ; k , μ ) = Γ ( y + k ) Γ ( k ) × Γ ( y + 1 ) × ( k μ + k ) k × ( 1 − k μ + k ) y f(y; k, \mu) = \frac{\Gamma(y + k)}{\Gamma(k) \times \Gamma(y + 1)} \times (\frac{k}{\mu + k})^k \times (1 - \frac{k}{\mu + k})^y f(y;k,μ)=Γ(k)×Γ(y+1)Γ(y+k)×(μ+kk)k×(1−μ+kk)y
E ( Y ) = μ v a r ( Y ) = μ + μ 2 k E(Y) = \mu var(Y) = \mu + \frac{\mu^2}{k} E(Y)=μ var(Y)=μ+kμ2
Γ \Gamma Γ 的意思是: G a m m a ( y + 1 ) = ( y + 1 ) ! Gamma(y + 1) = (y + 1)! Gamma(y+1)=(y+1)!;我们将数据的方差大于均值这种情况称为过度离散(overdispersion), v a r ( Y ) = μ + μ 2 k var(Y) = \mu + \frac{\mu^2}{k} var(Y)=μ+kμ2决定了过度离散度。当k足够大时,负二项分布近似于泊松分布 (实际上存在嵌套关系);当k小时,过度离散度就会变大。
需注意的是,负二项分布适用于离散的非负整数 (y ≥ 0)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HrEN23Se-1690773799677)(image/Chapter8_Mixedeffectsmodel/1690441452804.png)]
The Geometric Distribution
如果负二项分布的 k = 1 (即上图中间的三幅图),该分布被称为几何分布:
E ( Y ) = μ v a r ( Y ) = μ + μ 2 E(Y) = \mu var(Y) = \mu + \mu^2 E(Y)=μ var(Y)=μ+μ2
The Gamma Distribution
伽马分布可以被用于大于0 (y > 0) 的连续变量上,其概率密度函数是:
f ( y ; μ , v ) = 1 Γ ( v ) × ( v μ ) v × y v − 1 × e y × v μ f(y; \mu, v) = \frac{1}{\Gamma(v)} \times (\frac{v}{\mu})^v \times y^{v-1} \times e^{\frac{y \times v}{\mu}} f(y;μ,v)=Γ(v)1×(μv)v×yv−1×eμy×v
E ( Y ) = μ v a r ( Y ) = μ 2 v E(Y) = \mu var(Y) = \frac{\mu^2}{v} E(Y)=μ var(Y)=vμ2
离散度取决于 v,v越小数据的离散度越大。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vaNbMp2A-1690773799678)(image/Chapter8_Mixedeffectsmodel/1690442267616.png)]
需注意的是,伽马分布适用于大0的数据,不能将该分布用于响应变量含有0或复数的数据。
The Bernoulli and Binomial Distribution (伯努利分布和二项分布)
Binomial Distribution
二项分布的典型应用场景是 抛硬币(head or tail),其概率密度函数是:
f ( y ; π ) = ( N y ) × π y × ( 1 − π ) N − y f(y; \pi) = \begin{pmatrix} N\\y \end{pmatrix} \times \pi^y \times (1 - \pi)^{N - y} f(y;π)=(Ny)×πy×(1−π)N−y
E ( Y ) = N × π v a r ( Y ) = N × π × ( 1 − π ) E(Y) = N \times \pi var(Y) = N \times \pi \times (1 - \pi) E(Y)=N×π var(Y)=N×π×(1−π)
π \pi π被定义为某件事发生的概率,不发生的概率为 1 − π 1- \pi 1−π,N为投硬币的次数。
生态学上的例子是:我们去农场调查动物是否患有某种疾病。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4GBTjXFK-1690773799679)(image/Chapter8_Mixedeffectsmodel/1690443474578.png)]
Bernoulli Distribution
当N = 1时,二项分布就成了伯努利分布。一般而言,不用刻意取分二项分布与伯努利分布,使用 B ( π , N ) B (\pi, N ) B(π,N) 即可。
The Natural Exponential Family
上述所有分布均可使用Natural Exponential Family概括,详见书本的204页。
Which Distribution to select?
Distribution | Type of data |
---|---|
Normal | Continuous |
Poisson | Counts (integers) and density |
Negative binomial | Overdispersed counts and density |
Geometric | Overdispersed counts and density |
Gamma | Continuous (y > 0) |
Binomial | Proportional data/Presence absence data (0 or 1) |
Bernoulli | Presence absence data |
Zero Truncated Distributions for Count Data (零截断分布)
针对泊松、负二项以及几何分布,当取值不能为0时的特定应用场景 (如病人的住院时长),调整分布并排出零测值可能性,这即是领截断分布:
f ( y i ; μ ∣ y i > 0 ) = μ y i × e − μ ( 1 − e − μ ) × y i ! f(y_i; \mu | y_i > 0) = \frac{\mu^{y_i} \times e^{-\mu}}{(1 - e^{-\mu}) \times y_i!} f(yi;μ∣yi>0)=(1−e−μ)×yi!μyi×e−μ