时序模型

最新推荐文章于 2024-06-15 20:07:27 发布

ruidajin

最新推荐文章于 2024-06-15 20:07:27 发布

阅读量772

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/qq_39412443/article/details/114793501

版权

本文深入探讨了时序模型，重点介绍了HMM（隐藏马尔科夫模型）及其应用场景、参数估计，包括Viterbi算法和EM算法。同时，提到了GMM（高斯混合模型）和K-means算法，并简述了CRF（条件随机场）的基本概念和推理问题。通过对这些模型的理解，有助于掌握时序数据分析和预测的关键技术。

摘要由CSDN通过智能技术生成

模型：HMM/CRF --> RNN/LSTM

每个时刻的观测值x，latend variable隐式变量z作为状态，在进行转移，有向图，生成模型。状态都是离散的情况，连续的话转到GMM

A/B两枚硬币，正面概率分别为 $\mu_{1}$ , $\mu_{2}$ 。小明在幕后扔，我在前面观察结果。

想知道的问题：

场景举例：词性标注part of speech tagging(POS)，其中词性是隐状态，词是观测

想知道的问题：

sequence of tagging，inference 通过viterbi算法
参数估计：隐状态生成该观测和一个概率矩阵，词性和单词的对应概率，还有是词性之间转换的概率矩阵，两个词性的矩阵。观测只有句子没有对应的词性也就是概率矩阵未知，EM算法
p（观测）边缘概率，DP算法

Inference过程（Viterbi算法）

最笨的办法，将所有的可能的z的组合罗列出来，然后计算每个组合的概率。其中p（x,z）就是一系列z的bigram的条件概率和z生成对应x的概率之积，选出最大的。但是组合的数量是指数级的，所以要用动态规划的方法。Viterbi算法
Viterbi算法等动态规划算法，通过存储一些中间结果，从而来减小指数级别的计算的复杂度。在重复的计算某一些数字，通过存储下来来减少运算。
可以降复杂度的原因是状态只是和前序状态有关，如果是一个全图，那么还是没有办法降低复杂度。序列的方式，节点的入度只有1，，图的话节点入度可以很多，算该节点产生的概率要好多项相乘，这样导致不同的组合往往计算的值是不同的，没有重复的计算。
列表示各个 $z_{i}$ ，行表示可选的值，那么只需要划出一条最优的路径即可。
$\delta_{k}(i)$ ：结束点在k时刻的，z为状态i的最优路径的得分

Forward and Backward Algorithm：计算 $P(z_{k}|x)$
Forward Algorithm：计算 $P(z_{k},x_{1:k})$
Backward Algorithm：计算 $P(x_{k+1:n}|z_{k})$
推导 $p(z_{k}|x)=p(z_{k},x)/p(x)(正相关)=p(z_{k},x)=p(x_{k+1:n}|z_{k},x_{1:k})*p(z_{k},x_{1:k})(x之间独立)=p(x_{k+1:n}|z_{k})*p(z_{k},x_{1:k})$

应用：变化的检测

Forward Algorithm

Backward Algorithm

进行参数估计MLE，最大似然概率，也就是在该参数下能够产生这样的观测和状态的概率。分为两种情况：隐变量是否可见

Complete case： $L(\theta;D)=logp(x,z|\theta)=logp(z|\theta_{z})+logp(x|z,\theta_{x})$
Incomplete case： $L(\theta;D)=log p(x)=logp\sum_{z}(x,z|\theta)=log\sum_{z}p(z|\theta_{z})logp(x|z,\theta_{x})$

关注