似然函数
在一些非正式场合,似然和概率几乎是等价的。而在统计学中中,这是两个完全不一样的概念!在学习最大似然的前面,我们有必要先知道,何为似然?
鉴于似然和概率息息相关,把他们两个放在一起对比理解是再好不过了。
概率:在特定环境下某件事情发生的可能性也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性。
似然:根据事件的结果来判断这个事情本身的性质(参也就是某件事件发生了,那么这个事件在不同条件下发生的可能性。
似然函数:
通过定义不难发现,这两个的结果都是一个“概率值”,也难免会混淆。下面举个特经典的例子:
抛硬币实例:我们知道理想状况下,抛硬币一次正面朝上的概率为50%
概率是什么?就是我们要抛一个硬币,求其正面朝上的可能性。
似然是什么?我们抛了一次硬币,得到正面。且已知硬币1正面朝上的概率是75%,硬币2正面朝上的概率是56%,硬币3正面朝上的概率是32%,那么似然就是我们通过正面朝上这个已经发生的前提下,抛的是硬币1的概率?(这里我们把能影响事件结果的环境假设为了不同质地的硬币,他们可以是因为质量分布差异造成的结果差异,也可能是因为材质本身,在这里暂且不考虑抛硬币手法不同造成的影响)
结果和参数相互对应的时候,似然和概率在数值上是相等的,如果用 θ 表示环境对应的参数,x 表示结果,那么概率可以表示为:
P
(
x
∣
θ
)
P(x|θ)
P(x∣θ)是条件概率的表示方法,θ是前置条件,理解为在θ 的前提下,事件 x 发生的概率,相对应的似然可以表示为:
£
(
θ
∣
x
)
\pounds(\theta|x)
£(θ∣x)
最大似然估计
说完似然,下面说说极大似然和最大似然。
似然函数的最大值意味着什么?让我们回到概率和似然的定义,概率描述的是在一定条件下某个事件发生的可能性,概率越大说明这件事情越可能会发生;而似然描述的是结果已知的情况下,该事件在不同条件下发生的可能性,似然函数的值越大说明该事件在对应的条件下发生的可能性越大。
最大似然估计的基本思想:“概率最大的事件最可能发生”
为了不引入更多的理解负担,我们接着上面的实例讲解:
在讲解之前还要引入一个概念那就是伯努利分布(就是两点分布):
也可以写成以下形式:
这里注意区分 f(x;p)f(x;p) 与前面的条件概率的区别,引号后的 pp 仅表示 ff 依赖于 pp 的值,pp 并不是 ff 的前置条件,而只是这个概率分布的一个参数而已,也可以省略引号后的内容:
从似然的角度出发,假设我们观测到的结果是 x=0.5x=0.5(即某一面朝上的概率是50%,这个结果可能是通过几千次几万次的试验得到的,总之我们现在知道这个结论),可以得到以下的似然函数:
这里写图片描述