在开始之前,我们思考一个简单的抛硬币试验:你现在把同一枚硬币抛了100次(也就是进行了100次参数为
的i.i.d.的伯努利试验),用R模拟得出样本数据:有58次正面朝上。
1 1 1 1 0 1 0 1 1 1 0 0 1 0 1 1 1 1 1 1
1 0 0 1 0 0 1 0 1 1 1 0 1 1 0 0 0 1 0 1
1 0 1 1 0 0 1 0 1 0 1 1 0 1 0 1 0 1 0 0
1 1 1 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 1 1
1 0 0 1 0 1 1 1 1 0 1 1 0 0 1 1 1 0 1 1
请问这个参数
你肯定会不假思索地说,
。也就是说,你用
来估计了
“最可能”的值。但是这背后的原理是什么?基于目前的样本分析,这个“最可能”的
值为什么不是0.57、0.59或者其它的值呢?
这就是最大似然估计要做的事情:当给你从i.i.d.的分布中得到的样本数据,你该如何利用这有限个样本数据“尽可能准确”地估计这个分布中的未知参数?(Motivation)
最大似然估计的求解过程并不复杂,在构造
似然函数之后,对
取对数然后求导,可以得到当
的时候,
取得最大值。但是很多人对于似然函数的构造形式感到迷惑。为了得到这个
的估计值,
我们为什么要构造
似然函数的意义是:我们得到这样的100个样本的概率(因为这100次试验是i.i.d.的,所以是累乘)。在
未知的时候,我们取一个什么样的
,可以使得到这样一个样本的概率最大?换句话说,如果不是
这个值,相对来说我们就
更难得到这样的一个样本。
最大似然估计是“点估计 (point estimation)”的一种方法,顾名思义,因为它只估计出了一个
的值。但是,在很多实际问题中样本的size有限,真正的
也有可能是“其它”的值,但是会在一个
范围之内,因此我们在更多的时候需要“区间估计 (interval estimation)”,也就是接下来要理解的“置信区间 (confidence interval)”。