一、似然与概率的区别
记得在一篇博客中看到博主是这样解释的,感觉讲的很清晰,在这里分享一下。
(1)有一枚均匀的硬币,我们来求它抛20次有12次正面的可能性。这里的可能性指的就是概率。从机器学习的角度来说,概率指的是一个模型(硬币)出现某种结果(12次正8次反)的可能性。
(2)有一枚硬币抛出20次,结果有12次正面8次反面,我们来求这枚硬币是否均匀的可能性。这里的可能性指的就是似然。从机器学习的角度来说,似然指的是模型的参数(是否均匀)对产生这个结果(12次正8次反)的可能性。
二、构造似然函数
假设有一个总体分布X,它的参数为θ,现在从总体分布X中随机取n个数据作为一个样本x(x1,x2,x3…xn)。
P(x;θ)表示给定参数θ时,从总体分布X中取得这个样本x的可能性。
(1)第一种情况:当θ不变时
从总体分布X中随机取两个样本x1和x2,如果P(x1;θ) > P(x2;θ),那么就认为从总体分布X中取得x1样本的可能性比较大。这里P(x1;θ)和P(x2;θ)就是概率。
(2)第二种情况:当θ可变时
总体分布X的参数θ现在给定两个值θ1和θ2,从总体分布X中随机取一个样本x1,如果P(x1;θ1) > P(x1;θ2),那么就认为参数θ1对产生样本x1的可能性要更大。这里P(x1;θ1)和P(x1;θ2)就是似然,因为它衡量的是模型参数对产生某个结果的可能性。
极大似然函数就是研究第二种情况:
P(x;θ)作为参数θ产生样本x的似然性的一种度量。那么我们给定样本x来求P(x;θ),这时得到一个只剩θ的式子,将这个式子称为θ的似然函数,记为L(θ;x)。使得L(θ;x)取最大值的那个θ^ 我们就认为它是总体分布X的参数θ的一个比较可靠的估计值。
给定样本x(x1,x2,x3…xn),构建θ的似然函数L(θ;x)如下:
使得L(θ;x)最大的θ就是最优估计值。
三、举列
还是通过抛硬币这个列子来讨论。
有一枚硬币,它抛出正面朝上的概率为θ(这就是它的参数),现在θ有两个可取值θ1=1/2,θ2=1/4。用这枚硬币抛4次,结果出现了2次正面2次反面,那么θ取θ1还是θ2呢?
将12次正面8次反面这个结果记为x,那么有:
显然P(x;θ1)要大于P(x;θ2),θ1对于x的似然要更大一些,所以θ取1/2更为合适,也就是θ为1/2时最有可能出现2次正面2次反面这个结果。