（《机器学习》完整版系列）第14章概率图模型——14.3 条件随机场（链式CRF的条件概率）

条件随机场(CRF)是一种考虑条件概率的模型，特别是用于序列标注任务。它通过马尔可夫性假设简化计算，链式结构的CRF可以分解为一系列条件概率的乘积。在特殊情况下，CRF可以退化为马尔可夫链。文章还讨论了从链式CRF推广到包含观测序列的情况，以及对数几率回归和隐马尔可夫模型(HMM)作为CRF的特例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

思路：
联合概率可分解为条件概率的连乘，若每个因子都是同底的指数形式，则可转化为指数相加，由此引导我们对模型提出有利于计算的假设。
通过团的分解及团上的势函数定义概率，而团的势可以定义成同底的指数形式。

条件随机场

与MRF不同，条件随机场CRF考虑的是条件概率 $P(\boldsymbol{\mathrm{x}}\,|\,\boldsymbol{\mathrm{y}})$ ，其中， $\boldsymbol{\mathrm{x}}$ 与 $\boldsymbol{\mathrm{y}}$ 为两组相对应的序列：观测序列 $\boldsymbol{\mathrm{x}}=\{x_1,x_2,\cdots,x_n\}$ 和标记序列 $\boldsymbol{\mathrm{y}}=\{y_1,y_2,\cdots,y_n\}$ ，而标记序列还是结构变量，即具有图的结构 $G =< V, E >$ ，如，【西瓜书图14.5(b)】所示：在自然语言处理中， $\boldsymbol{\mathrm{x}}$ 代表句子（单词组成的序列），而 $\boldsymbol{\mathrm{y}}$ 代表语法树（标记为词性标注）。

CRF模型的假设为 $(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{y}})$ 满足【西瓜书式(14.10)】
$\begin{align} P(y_v\,|\,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{y}}_{V\setminus \{v\}})=P(y_v\,|\,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{y}}_{n(v)}) \tag{14.20} \end{align}$
其中， $\boldsymbol{\mathrm{y}}_{n(v)}$ 为 $\boldsymbol{\mathrm{y}}_v$ 的邻接结点。式(14.20)称为CRF的马尔可夫性。

考虑特殊的图结构：

I. 设 $\boldsymbol{\mathrm{y}}$ 形成链，而 $\boldsymbol{\mathrm{x}}$ 作为一个结点，【西瓜书图14.6】所示，称为链式条件随机场。

II. 再特殊：设 $\boldsymbol{\mathrm{x}}=\mathrm{true}$ （恒真），则式(14.20)变为
$\begin{align} P(y_k\,|\,y_1,y_2,\cdots,y_{k-1},y_{k+1},\cdots,y_n)=P(y_k\,|\,y_{k-1},y_{k+1}) \tag{14.21} \end{align}$
注意 $y_k$ 为端点时的特殊情况：这时邻接结点只有一个。如
$\begin{align} P(y_n\,|\,y_1,y_2,\cdots,y_{n-1})=P(y_n\,|\,y_{n-1}) \tag{14.22} \end{align}$

III. 再特殊：设 $y_i$ 是时序的，且当前只与过去相关，则式(14.21)中删去未来结点，变为
$\begin{align} P(y_k\,|\,y_1,y_2,\cdots,y_{k-1},y_{k+1},\cdots,y_n) & =P(y_k\,|\,y_1,y_2,\cdots,y_{k-1})\notag \\ & =P(y_k\,|\,y_{k-1}) \tag{14.23} \end{align}$
这即为马尔可夫链（以时序方向作为边的方向）。

链式CRF的条件概率

在II的情况下，利用式(14.22)有
$\begin{align} P(\boldsymbol{\mathrm{y}}) & =P(y_1,y_2,\cdots,y_{n-1},y_n)\notag \\ & =P(y_1,y_2,\cdots,y_{n-1})P(y_n\,|\,y_1,y_2,\cdots,y_{n-1})\notag \\ & =P(y_1,y_2,\cdots,y_{n-1})P(y_n\,|\,y_{n-1})\notag \\ & =\cdots \notag \\ & =P(y_1)P(y_2\,|\,y_1)P(y_3\,|\,y_2)\cdots P(y_n\,|\,y_{n-1})\notag \\ & =P(y_1)\prod _{i=1}^{n-1}P(y_{i+1}\,|\,y_i) \tag{14.24} \\ & =\prod _{i=0}^{n-1}P(y_{i+1}\,|\,y_i) \tag{14.25} \end{align}$
其中，引入 $y_0$ ，即 $p(y_1)=P(y_1\,|\,y_0)$ 。式(14.25)同马尔可夫链的式(14.5)一致。有趣的是：II与III两种情形的 $P(y_k\,|\,y_1,y_2,\cdots,y_{k-1},y_{k+1},\cdots,y_n)$ 不一样（式(14.21)与式(14.23)），但联合分布是一样式(14.25)。

注意到式(14.25)中的连乘，若每个因子都是同底的指数形式，则可转化为指数相加，由此引导我们对模型提出有利于计算的假设
$\begin{align} P(y_{i+1}\,|\,y_i)\propto \mathrm{e}^{F_i(y_i,y_{i+1})} \tag{14.26} \end{align}$

在II（不含 $\boldsymbol{\mathrm{x}}$ ）时，变成了我们前面学过的马尔可夫随机场：通过团的分解及团上的势函数定义概率，而团的势可以定义成同底的指数形式。由于在情形II下任何三个标记变量都不够成三角形，故这时只有两类团：一类是标记变量 ${y_i\}$ 组成的团，该团的势函数以指数函数 $\mathrm{exp}(\mu s(y_i))$ 定义，另一类是相邻标记变量 ${y_i,y_{i+1}\}$ 组成的团，该团的势函数以指数函数 $\mathrm{exp}(\lambda t(y_{i+1},y_i))$ 定义，然后，由【西瓜书式(14.2)】即得
$\begin{align} P(\boldsymbol{\mathrm{y}})=\frac{1}{Z} \mathrm{exp}\left({\sum_{i=1}^{n-1}\lambda t(y_{i+1},y_i)+\sum_{i=1}^{n}\mu s(y_i)} \right) \tag{14.27} \end{align}$
其中，引入了状态特征函数： $s(y_i)$ ；转移特征函数： $t(y_{i+1},y_i)$ 。

式(14.27)是在II（不含 $\boldsymbol{\mathrm{x}}$ ）条件下导出的，现在考虑依该思路将其推广到情况I链式CRF中，即要考虑【西瓜书图14.6】中 $\boldsymbol{\mathrm{x}}$ 加入后的情形，以【西瓜书图14.5】自然语言处理作为示例。

i. 将转移特征函数 $t(y_{i+1},y_i)$ 扩展成 $t_j(y_{i+1},y_i,\boldsymbol{\mathrm{x}},i)$ ，其中，增加的 $\boldsymbol{\mathrm{x}},i$ 分别表示句子以及句子中当前的位置，当 $i$ 没有指定时表示句中任意位置，词性见【西瓜书图14.5】中所示（如 $[\mathrm{V}]$ 表示动词），而 $j$ 表示这个句子中用到多个语法规则时的编号，如
$\begin{align} t_1(y_{i+1},y_i,\boldsymbol{\mathrm{x}},i) & = \begin{cases} 1,\ \text{if $y_{i+1}=[\mathrm{P}],\, y_{i}=[\mathrm{V}],\, x_i="\mathrm{knock}"$} \\ 0,\ \text{其它} \\ \end{cases} \tag{14.28} \\ t_2(y_{i+1},y_i,\boldsymbol{\mathrm{x}},i) & = \begin{cases} 1,\ \text{if $i=1,\, y_{i}=[\mathrm{V}],\, x_n="?"$（限定头尾）} \\ 0,\ \text{其它} \\ \end{cases} \tag{14.29} \end{align}$

将状态特征函数 $s(y_i)$ 扩展成 $s_k(y_i,\boldsymbol{\mathrm{x}},i)$ ，同样，基于句子 $\boldsymbol{\mathrm{x}},i$ 可能有多个规则，以 $k$ 表示编号。

ii. 对上述不同的规则赋予不同的权重，如，以“-ly”结尾的单词标记为“[Ad]的可能性较大，即对应的权 $\lambda _j$ 较大。

以“加权均值”（之所以用引号，表示还不是真正的加权均值，没有约束 $\sum_j\lambda _j=1$ ） $\sum_j\lambda _jt_j(y_{i+1},y_i,\boldsymbol{\mathrm{x}},i)$ 取代前述的 $t(y_{i+1},y_i)$ ，以“加权均值” $\sum_k\mu _ks_k(y_i,\boldsymbol{\mathrm{x}},i)$ 取代前述的 $s(y_i)$ 。

iii. 同样，对于标记变量所构成的图而言，仍只有两类团：一类是标记变量 ${y_i\}$ 组成的团，该团的势函数以指数函数 $\mathrm{exp}(\sum_k\mu _ks_k(y_i,\boldsymbol{\mathrm{x}},i))$ 定义，另一类是相邻标记变量 ${y_i,y_{i+1}\}$ 组成的团，该团的势函数以指数函数 $\mathrm{exp}(\sum_j\lambda _jt_j(y_{i+1},y_i,\boldsymbol{\mathrm{x}},i))$ 定义。

iv. 条件随机场和马尔可夫随机场一样，通过团的分解及团上的势函数定义概率，在条件随机场时【西瓜书式(14.2)】变为
$\begin{align} P(\boldsymbol{\mathrm{y}}\,|\,\boldsymbol{\mathrm{x}})=\frac{1}{Z}\prod _{Q\in \mathcal{C}} \psi _Q(\boldsymbol{\mathrm{y}}_Q) \tag{14.30} \end{align}$

将iii.定义的势代入式(14.30)得
$\begin{align} P(\boldsymbol{\mathrm{y}}\,|\,\boldsymbol{\mathrm{x}}) & =\frac{1}{Z} \mathrm{exp}\left(\sum_{i=1}^{n-1}\sum_j\lambda _jt_j(y_{i+1},y_i,\boldsymbol{\mathrm{x}},i)+\sum_{i=1}^{n}\sum_k\mu _ks_k(y_i,\boldsymbol{\mathrm{x}},i)\right) \tag{14.31} \end{align}$
式(14.31)中交换“连和号”的次序即为【西瓜书式(14.11)】，这即求条件概率的公式。

链式CRF的特例

条件随机场CRF用于求条件概率，它的概括面非常广，略举两例。

I. 对数几率回归（逻辑回归）

回归（或分类）本质上是求样本属于类别的概率，这也是条件概率，符合CRF，我们对整个数据集 $\{\boldsymbol{{x}}_i,y_i\}_{i=1}^m$
“批量”地作CRF图，即构造成图14.7 ，链式CRF中“打断” $y$ 的链条，其中， $\boldsymbol{\mathrm{x}}=\{\boldsymbol{{x}}_1,\boldsymbol{{x}}_2,\cdots,\boldsymbol{{x}}_m \}$ 。
图14.7 对数几率回归图模型

图14.7 对数几率回归图模型

则
$\begin{align} P(\boldsymbol{\mathrm{y}}\,|\,\boldsymbol{\mathrm{x}}) & =\prod_iP(y_i\,|\,\boldsymbol{\mathrm{x}})\notag \\ & =\prod_iP(y_i\,|\,\boldsymbol{{x}}_i)\notag \\ & =\prod_i(\text{【西瓜书式(3.26)】})\notag \\ & =\prod_i\mathrm{exp}(\mathrm{ln}(\text{【西瓜书式(3.26)】}))\notag \\ & =\mathrm{exp}(\sum_i\mathrm{ln}(\text{【西瓜书式(3.26)】}))\notag \\ & =\mathrm{exp}\sum_is(y_i,\boldsymbol{\mathrm{x}},i) \tag{14.32} \end{align}$
其中， $s(y_i,\boldsymbol{\mathrm{x}},i)=\mathrm{ln}(\text{【西瓜书式(3.26)】})$ ，式(14.32)与式(14.31)（【西瓜书式(14.11)】）比较可知，前者无 ${y_i,y_{i+1}\}$ 项，对数几率回归是链式CRF的特殊情况。

上述是“批量”地考虑，当“批量”变为一个样本时，就是通常的对数几率回归，结论当然也成立。

II. HMM

HMM本身是为求联合分布而设计的，现在我们考虑借助它来求条件概率，看看情况如何。

将HMM的联合分布表达式【西瓜书式(14.1)】取对数，则转变为和式，再求条件概率
$\begin{align} & \quad P(\boldsymbol{y}\,|\,\boldsymbol{x})\notag \\ & =\frac{P(\boldsymbol{y},\boldsymbol{x})}{P(\boldsymbol{x})}\notag \\ & =\frac{1}{P(\boldsymbol{x})}\mathrm{exp}(\text{【西瓜书式(14.1)】右侧})\notag \\ & =\frac{1}{P(\boldsymbol{x})}\mathrm{exp}\left(\sum_i\mathrm{ln}P(y_{i+1}\,|\,y_i)+\sum_i\mathrm{ln}P(x_i\,|\,y_i)\right)\notag \\ & =\frac{1}{P(\boldsymbol{x})} \mathrm{exp}\left(\sum_{i=1}^{n-1}\sum_j\lambda _jt_j(y_{i+1},y_i,\boldsymbol{x},i)+\sum_{i=1}^{n}\sum_k\mu _ks_k(y_i,\boldsymbol{x},i)\right) \tag{14.33} \end{align}$
其中
$\begin{align} \begin{cases} j\in \{1\},k\in \{1\} \\ t_j(y_{i+1},y_i,\boldsymbol{x},i)=\mathrm{ln}P(y_{i+1}=a'\,|\,y_i=a) \\ \lambda _j=1 \\ s_k(y_i,\boldsymbol{x},i)=\mathrm{ln}P(x_i=b\,|\,y_i=a) \\ \mu _k=1 \end{cases} \tag{14.34} \end{align}$