刚学习完似然值和概率的联系与区别,今天我们深入了解似然值在统计中的重要作用。
1. 最大似然估计定义
最大似然估计(maximum likelihood)就是利用已知的样本结果,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。
- 逻辑:结果 → 产生结果的条件环境条件
- 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。当模型满足某个分布,它的参数值便可以通过极大似然估计法求出来,如正态分布的μ和σ,指数分布的λ等等。
- 如果还有点懵懵的,请看接下来的示例。
2. 最大似然估计的一般流程
例如我们随机测量一些小鼠的体重(如下)。最大似然估计(maximum likelihood)的目的就是根据已知少量测量结果反推最有可能产生该数据的分布。
第一步:预判产生已知数据的可能分布类型。有许多的分布类型,包括正态分布、指数分数、gamma分布等等。通过已知的数据发现:①大部分数据靠近均值分布;②数据分分布整体呈现对称分布,中间值多,大值和小值少。故我们可以推测该数据可能来源于正态分布。
第二步:确定正态分布的参数(位置参数μ,形态参数σ)。正态分布有多重形状,包括瘦的、中等的、胖的,故唯有计算出μ和σ之后,才能明确产生该数据的具体分布。
1)位置参数μ:当σ保持不变时,比较已知测量数据在