写在前面
介绍了 likelihood,指数家族概率分布的公共形式和性质,GLM的定义,fitting the GLM。内容较多,会分成多篇。
Inference in the GLM , GLM的例子,GLM的限制 等较为复杂/数学,我暂时不写。
GLM的例子 我应该后续会另写一个博客介绍,以几种常见的指数家族分布为例,还是很有比较了解的。
一些prior基础内容的了解是有必要的:常见概率分布(如正态,泊松,二项,gamma等),基础的高等数学,基础的统计概念,简单线性回归。
我的前几篇博文,有说到:xx是GLM的特例,XX是GLM的推广这样的话,GLM确实是我个人较为喜欢和推崇的内容,这里我会尽可能地将它描述清楚。
likelihood
为什么要说 likelihood ?
---- maximum likelihood estimation 是一种获取模型参数点估计的方法。 因为GLM支持多种概率分布,不仅仅是正态分布,这也就导致了使用 least squares minimisation以 获取模型参数点估计 不再适用于 GLM,于是我们引入了 likelihood。 glm fitting 和 Inference 很大程度上是基于 likelihood 的。
为什么简单线性回归没有说 likelihood?
----如果你回顾我之前写的简单线性回归的文章,你会发现 简单线性回归使用的是 least squares minimisation 最小二乘法,这对于 fitting 和 Inference 就足够了 。 你还会发现 ”如何得到模型参数的点估计?在lm和GLM中 使用的方法不同,但某种场景下他们又巧妙地 对等“ 这句话,这句话的意思就是 lm使用 least squares minimisation 而 GLM使用 MLE (maximum likelihood estimation),”某种场景“指的正态分布(它是对称的), 在这种场景下这两种方法可视为等价的,其它概率分布就另当别论了,这也体现了简单线性回归的局限性。
几个prior基础概念 :
PDF/PMF :概率质量函数/概率密度函数,离散或者连续,这个函数的积分和为1(说的不准确&#