在统计学中,identifiability(可识别性)是模型必须满足的属性,以便能够进行精确推理。从理论上说,如果一个模型可以从无限的观察值中学习到模型潜在参数的真实的值,那么这个模型就是可识别的(identifiable)。从数学上来说,这个就等价于参数的不同值必须产生观察变量的不同概率分布。通常情况下,基于特定的技术约束,一个模型是可识别的。那么这些约束就称为可识别条件(identification condition)。
一个模型不能被识别通常称为non-identifiable 或者 unidentifiable (也就是说,存在两个或多个参数是可观测等价的)。在某种情况下,即使一个模型是不可识别的,仍然有可能学习到模型参数的一定子集下的真实值。这种情况我们就说模型是部分可识别的(partially identifiable)。
简而言之,一个模型是可识别的,那么其参数跟观察变量的概率分布的映射是一对一的。
具体的定义为:
令
P
=
P
θ
:
θ
∈
Θ
\mathcal{P}= {P_{\theta}:\theta \in \Theta}
P=Pθ:θ∈Θ 表示参数空间
Θ
\Theta
Θ是有限或无限维的统计模型。如果映射
θ
↦
P
θ
\theta \mapsto P_{\theta}
θ↦Pθ 是一对一的,那么我们就说
P
\mathcal{P}
P是可识别的。这可以表示为:
对于所有的
θ
1
,
θ
2
∈
Θ
\theta_{1}, \theta_{2}\in \Theta
θ1,θ2∈Θ,
P
θ
1
=
P
θ
2
⇒
θ
1
=
θ
2
。
P_{\theta_{1}} = P_{\theta_{2}} \Rightarrow \theta_{1}=\theta_{2}。
Pθ1=Pθ2⇒θ1=θ2。
这个定义意味着,
θ
\theta
θ的不同值应该对应不同的概率分布:如果
θ
1
≠
θ
2
\theta_{1} \neq \theta_{2}
θ1̸=θ2,那么也会有
P
θ
1
≠
θ
2
P_{\theta_{1}\neq \theta_{2}}
Pθ1̸=θ2。如果从概率密度函数角度定义分布,那么只有当它们在一组非零度量(non-zero measure)上有所不同时,两个概率密度函数应该被认为是不同的。例如,存在两个分布
f
1
(
x
)
=
1
0
≤
x
≤
1
f_{1}(x)=\mathbf{1}_{0 \leq x \leq 1}
f1(x)=10≤x≤1和
f
2
(
x
)
=
1
0
≤
x
<
1
f_{2}(x)=\mathbf{1}_{0 \leq x < 1}
f2(x)=10≤x<1,他们只是在单一的点
x
=
1
x=\mathbf{1}
x=1上不同,所以我们不能认为他们是不同的概率密度函数。
在映射
θ
↦
P
θ
\theta \mapsto P_{\theta}
θ↦Pθ的可逆性意义下,模型的可识别性等价于能够如果观察模型对应的样本很大,那么我们就能学习到模型真实的参数。也就是说,从无限的观察值中,我们将能够在模型中找到真实概率分布
P
0
P_{0}
P0,并且由于上述可识别性条件要求映射
θ
↦
P
θ
\theta \mapsto P_{\theta}
θ↦Pθ是可逆的,我们也将能够找到生成给定分布
P
0
P_{0}
P0的参数的真实值。
举一个线性回归模型(linear regression model)的例子说明这个概念:
令
P
\mathcal{P}
P表示标准的线性回归模型:
y
=
β
′
x
+
e
。
y= \beta'x+e。
y=β′x+e。
其中,
′
'
′表示矩阵的转置,E(e,x)=0。当且仅当矩阵
E
(
x
′
x
)
E(x'x)
E(x′x)是可逆时,那么参数
β
\beta
β是可识别的。因此这也是模型的可识别条件。
参考资料:
- Identifiability: https://en.wikipedia.org/wiki/Identifiability
- Lehmann, Erich L., and George Casella. Theory of point estimation. Springer Science & Business Media, 2006. Definition 1.5.2
- [Van der Vaart, Aad W. Asymptotic statistics. Vol. 3. Cambridge university press, 2000.]