概率(probability)和似然(likelihood),都是指可能性,都可以被称为概率,但在统计应用中有所区别。
- 概率(probability):用于在已知模型的情况下预测新的数据。
例如:抛一枚匀质硬币,抛10次,6次正面向上的可能性多大?
- 似然(likelihood):给定已知数据来拟合模型,或者说给定某一结果,求某一参数值的可能性。
例如:抛一枚硬币,抛10次,结果是6次正面向上,其是匀质的可能性多大?
下面看一个例子(来自:StatQuest: Probability vs Likelihood.)
假设下面这个分布是老鼠体重的分布,是一个均值为32,标准差为2.5的正态分布。
我们随机称一只老鼠的体重,其体重在32到34克的概率(probability)等于曲线在32到34的面积。在本例中,曲线的面积是0.29,意味着随机称一只老鼠,会有29%的概率其体重落在32到34克之间。在数学上,我们用下面的符号表述:
P
r
(
体
重
在
32
到
34
之
间
∣
均
值
=
32
,
标
准
差
=
2.5
)
=
0.29
Pr(体重在32到34之间|均值=32 ,\; 标准差=2.5)=0.29
Pr(体重在32到34之间∣均值=32,标准差=2.5)=0.29
这个式子中,如果我们对别的不同体重的概率感兴趣的话,只需要改动
P
r
(
A
∣
B
)
Pr(A|B)
Pr(A∣B) 的前面一部分
A
A
A就行了。
假设,我们想知道随意称一只小老鼠的体重大于34克的概率是多少,我们只需要改成
P
r
(
体
重
>
34
∣
均
值
=
32
,
标
准
差
=
2.5
)
Pr(体重>34|均值=32 ,\; 标准差=2.5)
Pr(体重>34∣均值=32,标准差=2.5)
接下来看一下似然(likelihood):
假设你已经知道了小老鼠的体重,重34克。那么“称得小老鼠重量为34克”的似然,是该曲线对应的y轴坐标,0.12
在数学上,我们用下面的符号表述:
L
(
均
值
=
32
,
标
准
差
=
2.5
∣
重
量
=
34
克
)
=
0.12
L(均值=32,\; 标准差=2.5|重量=34克)=0.12
L(均值=32,标准差=2.5∣重量=34克)=0.12
可以解释为当知道数据时,数据满足这个分布(模型)的可能性。同样地,我们可以变动该式的左侧,如图所示。
将分布的均值改成34,此时似然为0.21.
总结:
概率(Probabilitiy)是分布固定时,曲线下的面积。似然(Likelihood)是固定一个数据时,分布函数的y轴值,且分布函数是会改变的。
取一段来自知乎的解释:
对于
P
(
x
∣
θ
)
P(x|\theta)
P(x∣θ) ,如果
θ
\theta
θ 设为常量,会得到一个概率函数(关于x的函数);如果将
x
x
x 设为常量你将得到似然函数(关于
θ
\theta
θ 的函数)。
参考: