统计学习方法---条件随机场

最新推荐文章于 2022-04-29 19:16:48 发布

leemusk

最新推荐文章于 2022-04-29 19:16:48 发布

阅读量258

点赞数

分类专栏： # 统计学习方法

本文链接：https://blog.csdn.net/leemusk/article/details/106019289

版权

统计学习方法专栏收录该内容

14 篇文章 1 订阅

订阅专栏

条件随机场的定义

概率无向图模型的联合概率分布P(Y) 可以表示如下：
$\frac 1 {Z} \prod_C \Psi_C(Y_C) \\ Z = \sum_Y \prod_C\Psi_C(Y_C)$
因为条件随机场为无向图模型，且势函数通常定义为指数函数，所以其联合概率分布式：
$\frac 1 {Z} \prod_C \Psi_C(Y_C) \\ = \frac 1 Z \prod_{i=1}^K exp[-E_i(Y_{Ci})] \\ = \frac 1 Z exp\sum_{i=1}^K[F_i(Y_{Ci})]$
这里 K 是指最大团的个数，C是指最大团。

这里的条件随机场为线性链条件随机场，最大团是相邻的两个随机变量。记为 $y_{t-1}, y_t$ 。即可将一个最大团的F函数表示成三个部分。注意，我们这里假设在 $y_1$ 的前面增加一个在 $y_0$ 结点
$\frac 1 Z exp\sum_{i=1}^T F(y_{i-1}, y_i, x,i) \\ F(y_{i-1}, y_t, x) = \Delta_{y_{i-1}, x,i} + \Delta_{y_i, x,i} + \Delta_{y_{i-1},y_i, x,i}$
$\Delta_{y_{i-1}, x,i} ， \Delta_{y_i, x,i}$ 为状态函数，表示的最大团中的点。
$\Delta_{y_{i-1},y_i, x,i}$ 为转移函数，表示的最大团中的边。

因为 $\Delta_{y_{i-1}, x,i}$ 在上一个最大团的表达式中也存在。所以在这里省略 $\Delta_{y_{i-1}, x,i}$ 。因此，
$F(y_{i-1}, y_t, x,i) = \Delta_{y_i, x,i} + \Delta_{y_{i-1},y_i, x,i}$
令
$\Delta_{y_{i-1}, \ y_i, \ x,i} = \sum_{k=1}^K \lambda_k t_k(y_{i-1}, \ y_i, \ x, \ i) \\ \Delta_{y_i, x,i} = \sum_{l = 1}^L \mu_l s_l(y_i, x,i)$
则，
$\frac 1 Z exp \sum_{i=1}^T(\sum_{k=1}^K \lambda_k t_k(y_{i-1}, \ y_i, \ x, \ i) + \sum_{l = 1}^L \mu_l s_l(y_i, x,i))\\ = \frac 1 Z exp [\sum_{k=1}^K \lambda_k \sum_{i=1}^T t_k(y_{i-1}, \ y_i, \ x, \ i) + \sum_{l = 1}^L \mu_l \sum_{i=1}^T s_l(y_i, x,i))] \\ Z = \sum_y exp \sum_{i=1}^T(\sum_{k=1}^K \lambda_k t_k(y_{i-1}, \ y_i, \ x, \ i) + \sum_{l = 1}^L \mu_l s_l(y_i, x,i))$
K, L为给定值， $t_k，s_l$ 是特征函数， $\lambda_k，\mu_l$ 是对应的权值。
通常，特征函数 $t_k，s_l$ 取值为0 或 1；当满足特征条件时取值为1，否则为0。条件随机场全由特征函数和对应的权值确定。

简化形式：
令
$\begin{bmatrix} y_1 \\ y_2 \\ \cdots \\ y_T \end{bmatrix}, x = \begin{bmatrix} x_1 \\ x_2 \\ \cdots \\ x_T \end{bmatrix}, \lambda = \begin{bmatrix} \lambda_1 \\ \lambda_2 \\ \cdots \\ \lambda_K \end{bmatrix}, \eta = \begin{bmatrix} \eta_1 \\ \eta_2 \\ \cdots \\ \eta_L \end{bmatrix} \\ t = \begin{bmatrix} t_1 \\ t_2 \\ \cdots \\ t_K \end{bmatrix} , s = \begin{bmatrix} s_1 \\ s_2 \\ \cdots \\ s_L \end{bmatrix}$
则简化形式为
$\frac 1 Z exp(\lambda^T \sum_{i=1}^Tt(y_{i-1}, y_i, x, i) + \mu^T \sum_{i=1}^Ts(y_i, x, i) \\ Z = \sum_y exp(\lambda^T \sum_{i=1}^Tt(y_{i-1}, y_i, x, i) + \mu^T \sum_{i=1}^Ts(y_i, x, i)$
令
$\binom{\lambda}{\eta}_{K+L} \\ \ \\ F(y, x) = \binom{\sum_{i=1}^T t(y_{i-1}, y_i,x,i)}{\sum_{i=1}^T s( y_i,x,i)}_{K+L}$
则內积的形式：
$\frac 1 Z \ exp(w \cdot F(y,x)) \\ Z = \sum_yexp(w \cdot F(y,x))$

条件随机场的矩阵形式：
条件随机场还可以由矩阵表示。对每个标记序列引进特殊的起点和终点状态标记 $y_0 = start，y_{T+1} = stop$

$\frac 1 Z exp[ \sum_{i=1}^T(\sum_{k=1}^K \lambda_k t_k(y_{i-1}, \ y_i, \ x, \ i) + \sum_{l = 1}^L \mu_l s_l(y_i, x,i)] \\ = \frac 1 Z \ \prod_{i=1}^{T+1}exp [\sum_{k=1}^K \lambda_k t_k(y_{i-1}, \ y_i, \ x, \ i) + \sum_{l = 1}^L \mu_l s_l(y_i, x,i)]$
令K＝K 1 +K 2 （这里的 K是K1，L是K2）
在这里插入图片描述
$M_i(y_{i-1}, \ y_i, \ x)=exp(W_i(y_{i-1}, \ y_i| x)) \\ W_i(y_{i-1}, \ y_i| x) = \sum_{k=1}^{K}f_k(y_{i-1}, \ y_i, \ x)$
因此，条件概率 $P_w(y|x)$ 是：

规范化因子 $Z_w (x)$ 是以start为起点stop为终点通过状态的所有路径 $y_1 y_2…y_n$ 的非规范化概率在这里插入图片描述之和。
对观测序列 x 的每一个位置 $i = 1, 2, . . ., n + 1$ ，由于 $y_{i-1}$ 和 $y_i$ 在 m 个标记中取值，所以可以定义一个 m 阶矩阵随机变量.
$M_i(x) = [M_i(y_{i-1}, \ y_i, \ x)]_{m *m}$
这里的 $M_i$ 就是隐马尔可夫模型中的状态转移概率矩阵A，但是条件随机场打破了齐次马尔可夫性，即状态转移概率不随时间的变化而变化。这里在不同时间/位置的状态转移概率矩阵是不同的，还有一点就是，HMM中的状态转移概率矩阵是规范化的概率分布，每一行的和为1。而条件随机场是非规范的概率分布，因为并没有计算归一化因子，所以矩阵的每一行的和不为1。

条件随机场的三个问题

和隐马尔可夫模型一样，条件随机场也有三个问题：估计（evaluation），学习（learning），解码（decoding）/预测。

估计问题
估计问题就是概率计算，根据隐马尔可夫的前向后向算法思想，我们得到条件随机场的前向后向算法。

按照前向-后向算法，我们计算出条件概率：

其中，

特征函数f k关于条件分布P(Y|X)的数学期望是

假设经验分布为 $\widetilde{P}(X)$ ，特征函数 $f_k$ 关于联合分布 $P (X, Y)$ 的数学期望是
学习算法（拟牛顿法）
预测算法：
依然采用维比特算法