Mixed effects models 回顾（六）

最新推荐文章于 2024-07-08 15:00:15 发布

芥末与薄煎饼

最新推荐文章于 2024-07-08 15:00:15 发布

阅读量63

点赞数

文章标签：数据可视化 r语言数学建模

本文链接：https://blog.csdn.net/weixin_42850327/article/details/132018886

版权

Mixed effects models 回顾（六）

- Meet the expenential family

A.F. Zuur et al., Mixed Effects Models and Extensions in Ecology with R, 11 Statistics

Meet the expenential family

广义线性/加性模型（generalised linear regression/additive model, GLM, GAM）的构建需首先明确响应变量的分布形式。

The Normal Distribution

正态分布有两个参数，均值 $\mu$ 以及方差 $\sigma^2$ ，其密度函数为：

$f(X_i; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x_i - \mu)^2}{2\sigma^2}}$

$\mu, var(X) = \sigma^2$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mKxiXzvx-1690773799675)(image/Chapter8_Mixedeffectsmodel/1690184344567.png)]

The Poisson Distribution

泊松分布只有1个参数，均值及方差均为 $\mu$ 。泊松分布的典型用处是计数数据，其密度函数是 (y ≥ 0，y是整数)：

$\mu) = \frac{\mu^x \times e^{-\mu}}{x!}$

$\mu var(X) = \mu$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qqup12ea-1690773799676)(image/Chapter8_Mixedeffectsmodel/1690184446926.png)]

需注意的是，泊松分布适用于 ≥ 0 的整数。

The Negative Binomial Distribution (负二相分布)

负二项分布有两个参数，其密度函数是：

$\mu) = \frac{\Gamma(y + k)}{\Gamma(k) \times \Gamma(y + 1)} \times (\frac{k}{\mu + k})^k \times (1 - \frac{k}{\mu + k})^y$

$\mu var(Y) = \mu + \frac{\mu^2}{k}$

$\Gamma$ 的意思是： $G amma (y + 1) = (y + 1)!$ ；我们将数据的方差大于均值这种情况称为过度离散（overdispersion）, $\mu + \frac{\mu^2}{k}$ 决定了过度离散度。当k足够大时，负二项分布近似于泊松分布 (实际上存在嵌套关系)；当k小时，过度离散度就会变大。

需注意的是，负二项分布适用于离散的非负整数 (y ≥ 0)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HrEN23Se-1690773799677)(image/Chapter8_Mixedeffectsmodel/1690441452804.png)]

The Geometric Distribution

如果负二项分布的 k = 1 (即上图中间的三幅图)，该分布被称为几何分布：

$\mu var(Y) = \mu + \mu^2$

The Gamma Distribution

伽马分布可以被用于大于0 (y > 0) 的连续变量上，其概率密度函数是：

$\mu, v) = \frac{1}{\Gamma(v)} \times (\frac{v}{\mu})^v \times y^{v-1} \times e^{\frac{y \times v}{\mu}}$

$\mu var(Y) = \frac{\mu^2}{v}$

离散度取决于 v，v越小数据的离散度越大。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vaNbMp2A-1690773799678)(image/Chapter8_Mixedeffectsmodel/1690442267616.png)]

需注意的是，伽马分布适用于大0的数据，不能将该分布用于响应变量含有0或复数的数据。

The Bernoulli and Binomial Distribution (伯努利分布和二项分布)

Binomial Distribution

二项分布的典型应用场景是 抛硬币(head or tail)，其概率密度函数是：

$\pi) = \begin{pmatrix} N\\y \end{pmatrix} \times \pi^y \times (1 - \pi)^{N - y}$

$\times \pi var(Y) = N \times \pi \times (1 - \pi)$

$\pi$ 被定义为某件事发生的概率，不发生的概率为 $\pi$ ，N为投硬币的次数。

生态学上的例子是：我们去农场调查动物是否患有某种疾病。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4GBTjXFK-1690773799679)(image/Chapter8_Mixedeffectsmodel/1690443474578.png)]

Bernoulli Distribution

当N = 1时，二项分布就成了伯努利分布。一般而言，不用刻意取分二项分布与伯努利分布，使用 $(\pi, N )$ 即可。

The Natural Exponential Family

上述所有分布均可使用Natural Exponential Family概括，详见书本的204页。

Which Distribution to select?

Distribution	Type of data
Normal	Continuous
Poisson	Counts (integers) and density
Negative binomial	Overdispersed counts and density
Geometric	Overdispersed counts and density
Gamma	Continuous (y > 0)
Binomial	Proportional data/Presence absence data (0 or 1)
Bernoulli	Presence absence data

Zero Truncated Distributions for Count Data (零截断分布)

针对泊松、负二项以及几何分布，当取值不能为0时的特定应用场景 (如病人的住院时长)，调整分布并排出零测值可能性，这即是领截断分布：

$f(y_i; \mu | y_i > 0) = \frac{\mu^{y_i} \times e^{-\mu}}{(1 - e^{-\mu}) \times y_i!}$

芥末与薄煎饼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mixed effects models 回顾（六）

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mKxiXzvx-1690773799675)(image/Chapter8_Mixedeffectsmodel/1690184344567.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qqup12ea-1690773799676)(image/Chapter8_Mixedeffectsmodel/1690184446926.png)]，不能将该分布用于响应变量含有0或复数的数据。
复制链接

扫一扫