介绍
通过最大似然估计值来衡量损失。
最大似然估计的原理是:找到一组估计值,使得未知参数取该组估计值时,观察值以最大概率出现。
设总体
X
X
X 为离散型随机变量,其分布律为
P
(
X
=
x
k
)
=
p
(
x
k
,
θ
)
,
k
=
1
,
2
…
P(X=x_k)=p(x_k,\theta), k=1,2\dots
P(X=xk)=p(xk,θ),k=1,2…,其中
θ
\theta
θ 是待估参数,则
X
1
=
x
−
1
,
X
2
=
x
2
,
…
,
X
N
=
x
n
X_1=x-1,X_2=x_2,\dots,X_N=x_n
X1=x−1,X2=x2,…,XN=xn 的概率为:
P
(
X
1
=
x
−
1
,
X
2
=
x
2
,
…
,
X
N
=
x
n
)
=
∏
k
=
1
n
P
(
X
k
=
x
k
)
=
∏
k
=
1
n
p
(
x
k
,
θ
)
P(X_1=x-1,X_2=x_2,\dots,X_N=x_n)=\prod\limits_{k=1}\limits^{n}P(X_k=x_k)=\prod\limits_{k=1}\limits^{n}p(x_k,\theta)
P(X1=x−1,X2=x2,…,XN=xn)=k=1∏nP(Xk=xk)=k=1∏np(xk,θ).
上式是
θ
\theta
θ 的函数,称为 似然函数,记为
L
(
θ
)
L(\theta)
L(θ),即
L
(
θ
)
=
L
(
θ
;
x
1
,
x
2
,
⋯
,
x
n
)
=
∏
k
=
1
n
p
(
x
k
,
θ
)
L(\theta)=L(\theta;x_1,x_2,\cdots,x_n)=\prod\limits_{k=1}\limits^{n}p(x_k,\theta)
L(θ)=L(θ;x1,x2,⋯,xn)=k=1∏np(xk,θ)
上式完全是乘积的形式,大多数情况下会取个对数,方便求解或者不会溢出。
从另外一个角度来理解似然函数:当似然函数取最大值时,意味着这组参数一定程度上非常贴合所给数据分布,也就是说,在这组参数下,模型预测的值和真实值相对来说比较接近,也就是损失函数较小。
为了能够直接利用上述似然函数来表达损失函数的定义【损失值越小越好】,对取了对数的似然函数再取个负号。
参考资料
[1] 对数损失函数是如何度量损失的?-知乎
[2]《概率统计与数据处理》-曹菊生;魏国强