NLP学习(7) 时序模型

最新推荐文章于 2023-11-07 23:27:06 发布

两个幽灵

最新推荐文章于 2023-11-07 23:27:06 发布

阅读量425

点赞数

分类专栏：深度学习

原文链接：https://www.bilibili.com/video/BV1YK4y1875p

版权

深度学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

时序模型

应用

抛两个硬币, 抛哪个硬币是隐状态, 正反面是观测值.

词性标注里面观测值是单词, 隐状态是词性.

通过GMM处理连续变量

HMM

inference

使用维特比解码

在以第 $k$ 步以状态 $i$ 结尾时, 的最好的路径, 记为 $\delta_k(i)$

Forward/Backward Algorithm

F/B算法的目标是计算 $P(z_k|\boldsymbol{x})\propto{P(z_k,\boldsymbol{x})}$ z是隐变量,x是输出

前向算法的目标是计算 $P(z_k,x_{1..k})$

后向算法的目标是计算 $P(x_{k+1..n}|z_k)$

$\begin{aligned} P(z_k,\boldsymbol{x})&=P(x_{k+1..n}|z_k,x_{1..k})\cdot P(z_k,x_{1..k})\\ &=\underbrace{P(x_{k+1..n}|z_k)}_{后向算法}\cdot \underbrace{P(z_k,x_{1..k})}_{前向算法}\quad x_{1..k}与x_{k+1..n}独立 \end{aligned}$
①估计前向/后向算法的模型参数

$F/B\to 模型参数$

②变化检测(change detection)

[方法1] 比较两个图的相似度, 假设有t时刻和t+1时刻的图, 如果相似度小于某个门限值, 则认为发生了巨大变化

[方法2] 定义一个模型 $P(z_k\neq z_{k+1}|\boldsymbol{x})>\text{threshold}$ , 这个模型是可以通过 $P(z_k|\boldsymbol{x})$ 得到的

前向算法

$\begin{aligned} P(z_k,x_{1:k})&=\sum_{z_{k-1}}P(z_{k-1},z_k,x_{1:k})\quad{(1)}\\ &=\sum_{z_{k-1}}P(z_{k-1},x_{1:k-1})\cdot P(z_k|z_{k-1},x_{1:k-1})\cdot P(x_k|z_{k-1},z_k,x_{1:k-1})\quad{(2)}\\ &=\sum_{z_{k-1}}P(z_{k-1},x_{1:k-1})\cdot P(z_k|z_{k-1})\cdot P(x_k|z_k)\quad{(3)}\\ \end{aligned}$

$(1)$ 中 $\sum\limits_{z_{k-1}}$ 表示遍历 $z_{k-1}$ 的各种取值, 并且 $P(x)=\sum\limits_y P(x,y)$ , 就是概率公式中可以随便加项, 只要遍历各种取值即可.

从 $(2)$ 到 $(3)$ 是因为 $z_k$ 只和前一状态的 $z$ 有关, $x_k$ 只和同一时刻的 $x_{k-1}$ 有关.

后向算法

$\begin{aligned} P(x_{k+1:n}|z_k)&=\sum_{z_{k+1}}P(x_{k+1:n},z_{k+1}|z_k)\\ &=\sum_{z_{k+1}}P(x_{k+2:n}|z_{k+1},z_k,x_{k+1})\cdot P(z_{k+1},x_{k+1}|z_k)\quad{(1)}\\ &=\sum_{z_{k+1}}P(x_{k+2:n}|z_{k+1},z_k,x_{k+1})\cdot P(x_{k+1}|z_{k+1},z_k)\cdot P(z_{k+1}|z_k)\\ &=\sum_{z_{k+1}}P(x_{k+2:n}|z_{k+1})\cdot P(x_{k+1}|z_{k+1})\cdot P(z_{k+1}|z_k)\quad{(2)} \end{aligned}$

到 $(1)$ 用的是 $P(x,y)=P(x|y)\cdot P(y)$ , $P(x,y|z)=P(x|y,z)\cdot P(y|z)$

竖线长得真像除号.

到第 $(2)$ 步的时候, 因为不存在 $z_{k+2}$ , 所以只能把 $z_{k+1}$ 留下.

隐变量模型和EM算法

🎥233

隐变量模型

对于人脸照片隐变量(性别眼睛颜色头发颜色姿势) $\to$ 可观测变量(人脸照片), 生成照片, 所以叫生成模型.

希望模型学到隐变量特征.

类似生成模型都可以叫做隐变量模型

Complete Case: ( $z$ , $x$ )是可观测的 $\to$ 使用MLE算法

$\begin{aligned} \ell(\theta;\mathcal{D})&=\log p(\bold{x},\bold{z}|\theta)\\ &=\log p(\bold{z}|\theta)+\log p(\bold{x}|\bold{z},\theta) \end{aligned}$

$z$ 是标签, 作为隐变量, 是已知的

Incomplete Case: ( $x$ )可观测但是 $z$ 不可观测, 使用EM算法

$\begin{aligned} \ell(\theta;\mathcal{D})&=\log \sum_{\bold{z}}p(\bold{x},\bold{z}|\theta)\quad{(1)}\\ &=\log \sum_{\bold{z}}p(\bold{z}|\theta_z)p(\bold{x}|\bold{z},\theta_x)\quad{(2)} \end{aligned}$

$(1)$ 由于隐变量 $z$ 是不可知的, 需要遍历 $z$ 的各种情况求和; $(2)$ 预测 $z$ 的模型和预测 $x$ 的模型使用不同的参数.

EM算法的推导(非常重要)

面试经常会问. 🎥237

Jensen inequality 詹森不等式
$\ln \sum_{i=1}^n \lambda_i x_i \ge \sum_{i=1}^n \lambda_i\ln x_i\\ \text{条件是}\sum_{i=1}^n\lambda_i=1$

$\begin{aligned} L(\theta)&=\ln P(x|\theta)\\ \arg \max_\theta L(\theta)&=\arg\max_\theta\ln P(x|\theta)\\ L(\theta)-L(\theta_n)&=\ln P(x|\theta)-\ln P(x|\theta_n)\quad{(n是时间)}\\ &=\ln \sum_z P(x,z|\theta)-\ln P(x|\theta_n)\quad(\theta_n确定z就确定了)\\ &=\ln \sum_z P(x|z,\theta)P(z|\theta)-\ln P(x|\theta_n)\\ &(想办法把z挪到左边, 凑出和为1的\lambda; 其实是强行增加一项)\\ &=\ln \sum_z P(z|x,\theta_n)\cdot \cfrac{1}{P(z|x,\theta_n)}\cdot P(x|z,\theta)P(z|\theta)-\ln P(x|\theta_n)\\ &\ge\sum_z P(z|x,\theta_n)\ln \cfrac{P(x|z,\theta)P(z|\theta)}{P(z|x,\theta_n)}-\ln P(x|\theta_n)\\ &=\ln \sum_z P(z|x,\theta_n)\ln \cfrac{P(x|z,\theta)P(z|\theta)}{P(z|x,\theta_n)}-\sum_z P(z|x,\theta_n)\ln P(x|\theta_n)\\ &=\ln \sum_z P(z|x,\theta_n)\ln \cfrac{P(x|z,\theta)P(z|\theta)}{P(z|x,\theta_n)P(x|\theta_n)}\\ &命名为 \Delta(\theta|\theta_n) \end{aligned}$

$\begin{aligned} L(\theta)-L(\theta_n)&\ge \Delta(\theta|\theta_n)\\ L(\theta)&\ge L(\theta_n)+\Delta(\theta|\theta_n)\\ \theta_{n+1}&=\arg\max_\theta [L(\theta_n)+\Delta(\theta|\theta_n)]\\ &=\arg\max_\theta \left[L(\theta_n)+\sum_z P(z|x,\theta_n)\ln \cfrac{P(x|z,\theta)P(z|\theta)}{P(z|x,\theta_n)P(x|\theta_n)}\right]\\ &(删除与\theta无关的项)\\ &=\arg\max_\theta\left[\sum_z P(z|x,\theta_n)\ln P(x|z,\theta)P(z|\theta)\right]\\ &=\arg\max_\theta\left[\sum_z P(z|x,\theta_n)\ln P(x,z|\theta)\right]\\ &=\arg\max_\theta\mathbb{E}_{z|x,\theta_n}\ln P(x,z|\theta) \end{aligned}$

E步: 求隐变量 $z$ 的期望( $\theta$ 已知), 并使计算 $z$ 的最大似然估计值

M步: 调整( $\theta$ )使期望最大化,( $z$ 已知)

EM算法的特点:

每次迭代都会找到更好的解(严格递增)
但是不是全局最优解

K-means

属于EM算法

假设分为k类, 首先随机找k个点作为k个中心;

然后将每个点归为距离最近的中心的类别;

然后将每类的点的平均值作为新的中心位置;

所以k-means的cost function是什么

①变量: 点属于哪一个cluster ②中心点
$r_{nk}:=\text{if } x_n\text{ belongs to }k\text{-th cluster}\\ J=\sum_{n=1}^{样本}\sum_{k=1}^{类别}r_{nk}\left\|x_n-\mu_k\right\|^2$
其中的 $r_{nk}$ 是隐变量, (定义:隐变量是观测不到的变量, 每个点属于哪一类观测不到? 每一类的中心能观测到?)

E步已知中心点的位置, 求每个点属于哪一类

M步已知每个点所属的类别, 求中心点的位置

K-means换成软分类才能严格对应上EM算法.

HMM的参数估计

Complete Case

( $z$ , $x$ )是可观测的 $\to$ 使用MLE算法

估计 $\pi$

计算每个状态出现在每个序列开头的概率

估计状态转移矩阵A

根据序列中的状态转移情况, 计算每种状态转移到其它状态的概率.

估计发射矩阵B

统计序列中每种状态分别输出各种观测值的概率

Incomplete Case

先估计 $z$ 再估计 $\theta={\pi,A,B}$

估计 $\pi$

使用F/B算法计算出 $p(z_1=各种状态|\boldsymbol{x})$

(F/B算法能计算 $p(z|\boldsymbol{x})$ )

然后计算每个序列在开头的概率.

例子: 假设有3个序列 $\boldsymbol{x}_1,\boldsymbol{x}_2,\boldsymbol{x}_3$

在 $\boldsymbol{x}_1$ 中, $p(z_1=1|\boldsymbol{x}_1)=0.7$ , $p(z_1=2|\boldsymbol{x}_1)=0.2$ , $p(z_1=3|\boldsymbol{x}_1)=0.1$

在 $\boldsymbol{x}_2$ 中, $p(z_1=1|\boldsymbol{x}_2)=0.4$ , $p(z_1=2|\boldsymbol{x}_2)=0.4$ , $p(z_1=3|\boldsymbol{x}_2)=0.2$

在 $\boldsymbol{x}_3$ 中, $p(z_1=1|\boldsymbol{x}_3)=0.6$ , $p(z_1=2|\boldsymbol{x}_3)=0.3$ , $p(z_1=3|\boldsymbol{x}_3)=0.1$

则 $\pi=归一化([0.7+0.4+0.6,0.2+0.4+0.3,0.1+0.2+0.1])$

估计B

统计每种状态的出现次数(各种 $p(z|\boldsymbol{x})$ 求和), 然后

忘了就看🎥251第11分钟.

估计A 🎥252
$P(z_{k+1}=j|z_k=i)=\cfrac{P(z_{k+1}=j,z_k=i)}{P(z_k=i)} =\cfrac{count(z_k=i,z_{k+1}=j)}{count(z_k=i)}$
$\begin{aligned} P(z_k=i,z_{k+1}=j|x)&\propto P(z_k=i,z_{k+1}=j,x)\quad{(1)}\\ &=P(z_k=i,z_{k+1}=j,x_{1:k},x_{k+1},x_{k+2:n})\quad{(2)}\\ &=\underbrace{P(z_k,x_{1:k})}_{前向算法}\cdot\underbrace{P(x_{k+2:n}|z_{k+1})}_{后向算法}\cdot\underbrace{P(z_{k+1}|z_k)}_{A}\cdot\underbrace{P(x_{k+1}|z_{k+1})}_{B}\quad{(3)}\\ &记为 \beta_k(i,j) \end{aligned}$

$(1)$ 式的左边是归一化的, 也就是 $\sum\limits_i\sum\limits_j P(z_k=i,z_{k+1}=j|x)=1$ , 而 $(1)$ 式右边是正比于, 不再归一化,

所以要求出 $P(z_k=i,z_{k+1}=j|x)=\cfrac{\beta_k(1,1)}{\beta_k(1,1)+\beta_k(1,2)+\cdots+\beta_k(3,3)}$ (假设共有3种状态)

转移矩阵 $A=\underbrace{\begin{bmatrix}A_{11}&A_{12}&A_{13}\\A_{21}&A_{22}&A_{33}\\A_{31}&A_{32}&A_{33}\end{bmatrix}}_{次数}\stackrel{归一化}{\longrightarrow}{概率}$

$\begin{aligned} A_{13}&=P(z_1=1,z_2=3|x)\\&+P(z_2=1,z_3=3|x)\\&+P(z_3=1,z_4=3|x)\\&+P(z_4=1,z_5=3|x)\\&+P(z_5=1,z_6=3|x) \end{aligned}$

有向图和无向图

有向图的概率计算

$P(x_1,x_2,x_3,x_4,x_5)=P(x_4)P(x_5)P(x_3|x_4,x_5)P(x_2|x_3)P(x_1|x_2)$

无向图的概率计算

$P(x_1,x_2,x_3,x_4,x_5)=\Phi_1(x_1,x_2,x_5)\Phi_2(x_2,x_3,x_5)\Phi_3(x_3,x_4,x_5)$

有3个团, $\Phi$ 是自定义的特殊函数

生成模型一般用 $P (x, y)$ 建模, 判别模型用 $P (y ∣ x)$

Log Linear 模型

$P(y|x;w)=\cfrac{\exp \sum_{j=1}^J \overbrace{w_j}^{参数}\overbrace{F_j(x,y)}^{特征函数}}{z(x,w)}$

z是归一化因子, $J$ 是团的个数

多元逻辑回归

🎥259

设一个特征函数, x,y属于分类j则结果为x, 否则为0
$F_j(\boldsymbol{x},y)=\boldsymbol{x}\cdot \mathbb{I}(y=c)\quad \boldsymbol{x}\in \mathbb{R}^d,y\in {1,2,\cdots c}$

设 $c = 3$ , 那么 $j=1,2\cdots 3d$ , 所以 $w\in R^{3d}$ , 把 $w$ 按分类分成3组:
$w=(\underbrace{w_1,w_2,\cdots,w_d}_{w^{(1)}},\underbrace{w_{d+1},w_{d+2},\cdots,w_{2d}}_{w^{(2)}},\underbrace{w_{2d+1},w_{2d+2},\cdots,w_{3d}}_{w^{(3)}})^T$

$P(y=1|\boldsymbol{x};w)=\cfrac{\exp w^{(1)T}\cdot \boldsymbol{x}}{z(\boldsymbol{x},w)}\\ P(y=2|\boldsymbol{x};w)=\cfrac{\exp w^{(2)T}\cdot \boldsymbol{x}}{z(\boldsymbol{x},w)}\\ P(y=3|\boldsymbol{x};w)=\cfrac{\exp w^{(3)T}\cdot \boldsymbol{x}}{z(\boldsymbol{x},w)}$

$z({\boldsymbol{x},w})$ 是三者之和

条件随机场CRF模型

$P(y|x;w)=\cfrac{1}{z(x,w)}\exp \sum_{j=1}^J w_j F_j(x,y)$

设 $\overline{x}$ 是观测序列, $\overline{y}$ 是标签序列, (用 $\overline{\square}$ 表示向量)则
$\begin{aligned} P(\overline{y}|\overline{x};w)&=\cfrac{1}{z(x,w)}\exp \sum_{j=1}^J w_j F_j(\overline{x},\overline{y})\\ &=\cfrac{1}{z(\overline{x},w)}\exp \sum_{j=1}^J w_j\sum_{i=2}^n f_j(y_{i-1},y_i,\overline{x},i) \end{aligned}$

把 $F$ 分解成一个一个的小特征, 小特征是相邻时刻的 $y$ 和整个序列 $x$

inference

给定 $w,\overline{x}$ ,求出最好的序列 $\overline{y}$
$\begin{aligned} \hat{y}&=\arg\max_{\overline{y}}1 P(\overline {y}|\overline{x};w)\\ &=\arg\max_{\overline{y}}\sum_{j=1}^Jw_j F_j(\overline{x},\overline{y})\\ &=\arg\max_{\overline{y}}\sum_{j=1}^J w_j\sum_{i=2}^n f_j(y_{i-1},y_i,\overline{x},i)\\ &=\arg\max_{\overline{y}}\sum_{i=2}^n\sum_{j=1}^Jw_j f_j(y_{i-1},y_i,\overline{x},i)\\ &=:\arg\max_{\overline{y}}\sum_{i=2}^n g_i(y_{i-1},y_i)\quad{暂时用冒号表示定义}\\ \end{aligned}$

$g ()$ 是某个时刻所有特征的加权和.

用动态规划的方式解决, 定义 $u (k, v)$ 表示以序列 $1 . . k$ 以标签 $v$ 结尾的最优序列
$\begin{aligned} u(k,v)&=\max_{y_1\cdots y_{k-1}}\sum_{i=1}^{k-1}g_i(y_{i-1},y_i)+g_k(y_{k-1},v)\\ &=\max_{y_1\cdots y_{k-1}}\left[\max_{y_1\cdots y_{k-2}}\sum_{i=1}^{k-2}g_i(y_{i-1},y_i)+g_{k-1}(y_{k-2},y_{k-1})\right]+g_k(y_{k-1},v)\\ &=\max_u[u(k-1,u)+g_k(u,v)]\quad{用u表示倒数第2个标签} \end{aligned}$

参数 $w$ 的估计

🎥262
$P(y|x;w)=\cfrac{\exp \sum_{j=1}^J w_jF_j(x,y)}{z(x,w)}$

$P (y ∣ x; w)$ 是数据 $x$ 的标签是 $y$ 的概率, 其中 $\sum_J$ 是遍历特征函数.
$\begin{aligned} \cfrac{\partial}{\partial w_j}\log P(y|x;w)&=\cfrac{\partial}{\partial w_j}\left[\sum_{j=1}^Jw_jF_j(x,y)-\log z(x,y)\right]\\ &=F_j(x,y)-\cfrac{1}{z(x,w)}\cfrac{\partial}{\partial w_j}z(x,w)\quad{(10)}\\ z(x,w)&=\sum_{y'}\exp \sum_{j=1}^Jw_jF_j(x,y')\\ \end{aligned}$

把 $y$ 写到 $\sum$ 下面是遍历 $y$ 的各种可能性(组合); $z$ 是类似 $\sum\limits_yZ(y,x,w)$ 的写法, 求的是 $x$ 和 $y$ 的联合概率.

$\begin{aligned} \cfrac{\partial}{\partial w_j}z(x,w)&=\cfrac{\partial}{\partial w_j}\sum_{y'}\exp \sum_{j=1}^Jw_jF_j(x,y')\\ &=\sum_{y'}\cfrac{\partial}{\partial w_j}\left[\exp \sum_{j=1}^Jw_jF_j(x,y')\right]\\ &=\sum_{y'}\exp\left(\sum_{j'=1}^Jw_{j'}F_{j'}(x,y')\right)\cdot\cfrac{\partial}{\partial w_j}\left(\sum_{j'=1}^Jw_{j'}F_{j'}(x,y')\right)\\ &=\sum_{y'}\exp\left(\sum_{j'=1}^Jw_{j'}F_{j'}(x,y')\right)\cdot F_j(x,y')\quad{因为后面只有一项w_{j'}=w_j}\quad{(11)}\\ \end{aligned}$

将 $(11)$ 带入 $(10)$ 中, 得到
$\begin{aligned} \cfrac{\partial}{\partial w_j}\log P(y|x;w)&=F_j(x,y)-\cfrac{1}{z(x,w)}\sum_{y'}\exp\left(\sum_{j'=1}^Jw_{j'}F_{j'}(x,y')\right)\cdot F_j(x,y')\\ &=F_j(x,y)-\sum_{y'}F_j(x,y')\cfrac{\exp\sum_{j'=1}^Jw_{j'}F_{j'}(x,y')}{z(x,w)}\\ &=F_j(x,y)-\sum_{y'}F_j(x,y')P(y'|x;w)\\ &=F_j(x,y)-\mathop{\mathbb{E}}_{y'\sim P(y'|x;w)}\{F_j(x,y')\}\quad{(12)} \end{aligned}$

下面是求任意 $(\overline x,\overline y)$ 的 $z$ (带横线的是序列)

$\begin{aligned} z(\overline{x},w)&=\sum_{\overline y}\exp \sum_{j=1}^Jw_jF_j(\overline{x},\overline y)\quad 特征的加权\\ &=\sum_{\overline{y}}\exp \sum_{i=2}^n g_i(y_{i-1},y_i)\quad 时间上求和 \end{aligned}$

目标是求序列 $z(\overline x, w)$

前向算法

定义 $\alpha(k,v)$ 为序列 $y_{1..k}$ 以tag $v$ 结尾的概率
$\begin{aligned} &\alpha(k+1,v)\\ =&\sum_{y_{1..k}}\exp \left[\sum_{i=2}^kg_i(y_{i-1},y_i)+g_{k+1}(y_k,y_{k+1}=v)\right]\\ =&\sum_{y_k=:u}\left(\sum_{y_{1..k-1}}\exp\left[\sum_{i=2}^{k-1}g_i(y_{i-1},y_i)+g_k(y_{k-1},y_k=u)\right]\right)\times\exp g_{k+1}(y_k=u,y_{k+1}=v)\\ =&\sum_{y_k=:u}\alpha(k,u)\times\exp g_{k+1}(u,v) \end{aligned}$

后向算法🎥262 22:00

定义 $\beta(u,k)$ 为序列 $y_{k..n}$ 以tag $u$ 开始的概率
$\begin{aligned} &\beta(u,k-1)\\ =&\sum_{y_{k..n}}\exp\left[\sum_{i=k+1}^ng_i(y_{i-1},y_i)+g_k(y_{k-1}=u,y_k)\right]\\ =&\sum_{y_k=:v}\left(\sum_{y_{k+1..n}}\exp\left[\sum_{i=k+2}^ng_i(y_{i-1},y_i)+g_{k+1}(y_k,y_{k+1})\right]\right)\times\exp g_k(y_{k-1}=u,y_k=v)\\ =&\sum_{y_k=:v}\beta(v,k)\times\exp g_k(u,v) \end{aligned}$
然后, 序列 $\overline x$ 出现的概率
$z(\overline x,w)=\sum_u\alpha(k,u)\cdot\beta(u,k)$
解释一下

sum = 0
for u = 第k个标签的各种取值:
    sum += 标签序列的0..k部分以u结尾的概率 * 标签序列的k..n部分以v开始的概率

假设 $y$ 是离散变量, 则 $\overline x$ 序列的第 $k$ 个位置标签是 $u$ 的概率:
$P(y_k=u|\overline x;w)=\cfrac{P(y_k=u,\overline x;w)}{P(\overline x;w)}=\cfrac{\alpha(k,u)\beta(u,k)}{z(\overline x,w)}$
分母就是刚才求的为什么需要分母? 因为 $\alpha$ 和 $\beta$ 都是 $x$ , $y$ 的联合概率
$P(y_k=u,y_{k+1}=v|\overline x;w)=\cfrac{\alpha(k,u)\exp[g_{k+1}(u,v)]\beta(k+1,v)}{z(\overline x, w)}\quad{(13)}$
然后梦回公式 $(12)$ , 但是换成了向量版
$\begin{aligned} \cfrac{\partial}{\partial w_j}\log P(\overline y|\overline x;w)&=F_j(\overline x,\overline y)-\mathop{\mathbb{E}}_{\overline y'\sim P(\overline y'|\overline x;w)}\{F_j(\overline x,\overline y')\}\quad 序列\overline y'出现的概率\times F_j\\ &=F_j(\overline x, \overline y)-\mathop{\mathbb{E}}_{\overline y'}\left\{\sum_{i=2}^nf_j(y'_{i-1},y'_i,\overline x,i)\right\}\quad 在时间维度上展开\\ &=F_j(\overline x,\overline y)-\sum_{i=2}^n\mathop{\mathbb{E}}_{\overline y'}\left\{f_j(y'_{i-1},y'_i,\overline x,i)\right\}\quad交换\sum\quad{(14)}\\ &=F_j(\overline x, \overline y)-\sum_{i=2}^n\mathop{\mathbb{E}}_{y'_{i-1},y'_i}\{{f_j(y'_{i-1},y_i',\overline x,i)}\}\quad{(15)}\\ &=F_j(\overline x, \overline y)-\sum_{i=2}^n\sum_{y'_{i-1}}\sum_{y'_i}P(y_i,y_{i-1}|\overline x;w)f_j(y_{i-1},y_i,\overline x,i)\\ &=F_j(\overline x, \overline y)-\sum_{i=2}^n\sum_{y'_{i-1}}\sum_{y'_i}\cfrac{\alpha(k,u)\exp[g_{k+1}(u,v)]\beta(k+1,v)}{z(\overline x, w)}f_j(y_{i-1},y_i,\overline x,i)\quad{(16)} \end{aligned}$
从第 $14$ 步到第 $15$ 步,
$\mathop{\mathbb{E}}_{a,b,c,y}f(y)=\sum_{a,b,c,y}P(a,b,c,y)f(y)=\sum_y(\sum_{a,b,c}P(a,b,c,y))f(y)=\sum_yP(y)f(y)=\mathop{\mathbb{E}}_yf(y)$
也就是说没用的项可以合并消失.

到第 $16$ 步, $P$ 对每个特征的参数 $w_j$ 的梯度已经知道了, 可以用梯度下降法求 $w$ 了.

两个幽灵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP学习(7) 时序模型

时序模型应用抛两个硬币, 抛哪个硬币是隐状态, 正反面是观测值.词性标注里面观测值是单词, 隐状态是词性.通过GMM处理连续变量HMMinference使用维特比解码在以第kkk步以状态iii结尾时, 的最好的路径, 记为δk(i)\delta_k(i)δk(i)Forward/Backward AlgorithmF/B算法的目标是计算P(zk∣x)∝P(zk,x)P(z_k|\boldsymbol{x})\propto{P(z_k,\boldsymbol{x})}P(zk∣x)∝P
复制链接

扫一扫