声学似然度的计算

最新推荐文章于 2022-01-30 19:25:06 发布

mushouxiaoer

最新推荐文章于 2022-01-30 19:25:06 发布

阅读量667

点赞数

分类专栏： viterbi asr

asr 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

viterbi

1 篇文章 0 订阅

订阅专栏

1. forward algorithm

$\quad$ 一个HMM的Acoustic likelihood可以用前向算法（forward algorithm）来计算。给定一个HMM模型 $M$ ，一个特征向量序列 $o_1,o_2,...o_T$ ，模型 $M$ 能够生成 $O$ 的似然度，即声学似然度 $P (O ∣ M)$ 定义如下：
$\begin{aligned} P(O|M)&=\sum_{S}P(O,S|M) \\ &=\sum_{S}\pi_{s1}b_{s1}(o_1)a{s_1s_2}b_{s2}(o_2)...a_{s_{T-1}s_T}b_{s_T}(o_T)\tag{1} \end{aligned}$
$\quad$ 其中 $S$ 表示状态序列 $s_1,s_2,...s_T$ ，在 $t$ 时刻的状态为 $s_t$ 。
$\quad$ 上面那个公式(1)，是对所有可能产生观察序列的状态序列的转移概率和发射概率的和。然而枚举所有可能的假设需要很大的计算量。为了让这个求和效率更高一点，咱们可以用前向算法，一种递归的方式来进行计算。
$\begin{aligned} \tag{2}\alpha(1,s)&=\pi_sb_s(o_1)\\ \alpha(t,s)&=\sum_{\sigma\in{S}}\alpha(t-1,\sigma)a_{\sigma s}b_s{o_t} \end{aligned}$
$\quad$ 其中， $\alpha(t,s)$ 表示的是在 $t$ 时刻处于 $s$ 状态的前向概率。表示在 $t$ 时刻，模型 $M$ 输出 $o_1,o_2,...o_t$ ，并且在 $t$ 时刻到达 $s$ 状态的概率，即 $p(o_1,o_2,...,o_t,s_t=s|M)$ 。所以最终输出 $o_1,o_2,...o_T$ 的概率为：
$\begin{aligned} \tag{3}p(O|M)=\sum_{s\in{\mathcal{F}}}\alpha(T,s) \end{aligned}$

2. decode

$\quad$ 在解码的时候，我们一般用 Viterbi 算法，Viterbi 算法通过下面的公式来得到最可能输出 $O$ 的状态序列的似然度。
$\begin{aligned} \tag{4}\tilde{P}(O|M)&=\max\limits_SP(O,S|M) \\ &=\max\limits_S\pi_{s1}b_{s1}(o_1)a_{s_1s_2}b_{s2}(o2)...a_{s_{T-1}s_T}b_{s_T}(o_T) \end{aligned}$
$\quad$ 这个式子看起来和前向很像，区别就在于用求最大值替换了求和。两者的区别根源在于所要完成的任务的不同，公式（1）的目的是想要看输出是 $O$ 的可能性有多大。而（4）的目的是求最有可能输出 $O$ 的状态序列。那公式（2）也可以为解码所用。不过会有一些改动如下：
$\begin{aligned} \tag{5}\tilde{\alpha}(1,s)&=\pi_sb_s(o_1)\\ \tilde{\alpha}(t,s)&=\max\limits_{\sigma\in{S}}\tilde{\alpha}(t-1,\sigma)a_{\sigma s}b_s{o_t} \end{aligned}$
$\quad$ $\tilde{\alpha}(t,s)$ 模型 $M$ 沿着最有可能的状态输出 $o_1,o_2,...o_t$ ，并且在 $t$ 时刻到达 $s$ 。这个时候，每个时刻就只用考虑一个状态了。那最终的：
$\begin{aligned} \tag{6}\tilde{p}(O|M)=\max\limits_{s\in{\mathcal{F}}}\tilde{\alpha}(T,s) \end{aligned}$
$\quad$ 这个 $\tilde{p}(O|M)$ 也叫做 Viterbi score。在每个时刻选择的状态，整个连接起来就形成了一条路径，我们管它叫 Viterbi path。

3. Viterbi algorithm for asr

$\quad$ 在语音识别解码问题上，有几个总出现的公式
$\begin{aligned} \tag{7}\hat{W}=\arg\max\limits_{W\in{\mathcal{W}}}P(W|O) \end{aligned}$
$\quad$ 根据贝叶斯公式：
$\begin{aligned} \tag{8}\hat{W}&=\arg\max\limits_{W\in{\mathcal{W}}}\frac{P(O|W)P(W)}{P(O)}\\ &=\arg\max\limits_{W\in{\mathcal{W}}}P(O|W)P(W) \end{aligned}$
$\quad$ 假定每个句子假设 $W$ 是一个由 $w_1,w_2,...,w_{M_w}$ 组成的序列，那么 word-level的分数为：
$\begin{aligned} \tag{9}\hat{W}&=\arg\max\limits_{W\in{\mathcal{W}}}\sum_{S\in{S_W}}P(O,S|W)P(W)\\ &=\arg\max\limits_{W\in{\mathcal{W}}}\sum_{S\in{S_W}}\prod_{m=1}^{M_W}p(o_{t_{m-1}+1}^{t_m},s_{t_{m-1}+1}^{t_m}|w_m)P(w_m|w_{1}^{m-1}) \end{aligned}$
$\quad$ 其中 $P(o_t^\tau,s_t^\tau|w)$ 表示的是 $w$ 沿着状态 $s_t,...,s_{\tau}$ 生成 $o_t,...,o_{\tau}$ 的似然度。 $S_w$ 表示是的 $W$ 可能的状态序列。 $t_m$ 表示的是词 $w_m$ 的结束帧，由状态序列 $S$ 决定。此处， $t_0=0$ 。
$\quad$ 使用Viterbi算法进行解码的时候，最优的词序列 $\hat{W}$ 是由最有可能的状态序列生成的。具体计算如下：
$\begin{aligned} \tag{10}\hat{W}&=\arg\max\limits_{W\in{\mathcal{W}}}\max\limits_{S\in{S_W}}P(O,S|W)P(W)\\ &=\arg\max\limits_{W\in{\mathcal{W}}}\max\limits_{S\in{S_W}}\prod_{m=1}^{M_W}p(o_{t_{m-1}+1}^{t_m},s_{t_{m-1}+1}^{t_m}|w_m)P(w_m|w_{1}^{m-1})\\ &=\arg\max\limits_{W\in{\mathcal{W}}}\max\limits_{T\in{\mathcal{T}_W}}\prod_{m=1}^{M_W}\tilde{p}(o_{t_{m-1}+1}^{t_m},s_{t_{m-1}+1}^{t_m}|w_m)P(w_m|w_{1}^{m-1}) \end{aligned}$
$\quad$ 突然冒出来的 $\mathcal{T_W}$ 表示的是可能的结束帧序列的集合。 $T\in{\mathcal{T}_W}$ 是一个时间帧序列，这个序列和句子里面的没歌词是对应的，表示为： $t_1,...,t_{M_W}$ 。所以对于一个词序列的 Viterbi score ，可以通过 word-level 的 Viterbi Score 和对应的语言概率来累乘得到。
$\quad$ 为了更加有效地找到 $\hat{W}$ ，避免枚举所有可能的 $W$ ，单个词的 Viterbi 算法可以通过在不同的词HMM之间引入词间状态转移来扩展一下。词间状态转移是通过类似于FSG(finite state grammer)来定义的。n-gram模型同样可以应用于此，因为n-gram可以当做是一个 probabilistic FSG（PFSG），只不过每一个状态转移之间加了一个概率而已。
$\quad$ 一个PFSG可以定义为一个七元组：
$\tag{11}G=(\mathcal{Q,V,E,I,F},P,\pi)$ 具体含义如下：

$\mathcal{Q}$ ：状态集合；
$\mathcal{V}$ ：词标签集合，比如词典；
$\mathcal{E}$ ：状态转移集合；
$\mathcal{I}$ ：初始状态集合；
$\mathcal{F}$ ：结束状态集合；
$P：\mathcal{Q}$ x $\mathcal{Q}$ —>[0, 1] 状态转移概率函数；
$\pi$ —> [0, 1] 初始状态概率函数

$\quad$ 如果 $G$ 是一个 bigram LM，那么每个词分配一个状态。假定 $p_w$ 表示词 $w$ 的状态，那么 $w$ 的初始概率 $\pi(p_w)$ 就等于unigram LM中的 $P (w)$ 。词 $v$ 到词 $w$ 之间状态转移概 $P(p_w|p_v)=P(w|v)$ 。如果是trigram LM，那么对应的就每个状态都是一个词对（Word pair），对应的状态转移概率就是 trigram LM 中的概率。
$\quad$ 给定一个输出序列 $o_1, o_2,...,o_T$ 以及一个gammar（我也不知道咋翻译这个……），grammar的每一个词都对应着一个词HMM，这个HMM包含着状态的词标签。
$\quad$ 当使用word HMM的时候，每一个模型都被扩展了，加了一个初始状态和终止状态。假定一个grammar 状态 $p$ 的Word HMM为 $\theta_p=(\mathcal{S_p,Y_p,A_p,B_p,\prod_p,F})$ ，其中， $\mathcal{A_p}= \{ a_{\sigma s}^{(p)}|\sigma \in \mathcal S_p \}$ 为状态转移矩阵， $\mathcal{B_p}=\{b_s^{(p)}(o)|s\in \mathcal S_p, o\in \mathcal Y_p\}$ 为状态发射矩阵， $\mathcal{\prod_p}=\{\pi_s^{(p)}|s\in \mathcal{S_p}\}$ 为初始状态。我们用 $i_p$ 和 $f_p$ 来表示初始和终止状态。
给定一个解码图，对于输入的utterance，可以用 one-pass viterbi algorithm 来得到最有可能的词序列。这个算法也被称为时间同步维特比搜索。下面详述这个过程。

$\quad$ $\tilde\alpha(t,p,s)$ ：在一个grammar state $p$ （其实就是一句话中的一个词）中，直到 $t$ 时刻，处于状态 $s$ 的某条路径的Viterbi score。
$\quad$ $B (t, p, s)$ ：a back pointer（回溯指针？……太难了太难了），来追踪在grammar state $p$ 中，直到 $t$ 时刻处于状态 $s$ 最可能的词序列的路径。 $B (t, p, s)$ 有一对 $<\tau,q>$ ，其中呢 $\tau$ 表示与grammar state $p$ 绑定的词的开始帧， $q$ 是在 $p$ 之前的最有可能的 grammar state。如果 $p$ 之前没有grammar state，那么 $q = 0$ 。
在这个utterance的结束帧，我们可以通过back-tracking来找到最有可能的词序列。具体的就是用那个回溯指针来找。
$\quad$ 令 Adj( $s$ )表示状态 $s$ 的邻近状态列表。Woerd( $p$ )表示 grammar state $p$ 的词标签。如果 $p$ 是个空状态，Word( $p$ )返回 $\epsilon$ ，表示空字符串。

Step 1： Initialization
$\qquad$ for each grammar states $p\in \mathcal{Q}$ ,
$\qquad\quad$ for each HMM state $s\in\mathcal{S_p}$ ,
$\tag{12}\tilde\alpha(0,p,s)=\begin{cases}\pi_p&\text{if }p\in\mathcal{I}\text{ and }s=i_p\\ \max\limits_{q\in\mathcal{Q}}\tilde\alpha(0,q,f_q)P(p|q)&\text{if }p\notin\mathcal{I}\text{ and }s=i_p\\ 0&\text{otherwise} \end{cases}$
$\tag{13}B(0,p,s)=<0,0>$
Step 2: Time-synchronous processing
$\qquad$ For time frames: $t = 1, 2, . . ., T$
$\qquad\quad$ Intra-word transition:
$\qquad\qquad$ for each grammar states $p\in \mathcal{Q}$ ,
$\qquad\qquad\qquad$ for each HMM state $s\in\mathcal{S_p-\{i_p,f_p\}}$ ,
$\begin{aligned}\tilde{a}(t,p,s)&=\max\limits_{\sigma\in(S_p-\{i_p,f_p\})} \end{aligned}$

mushouxiaoer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
声学似然度的计算

1. forward algorithm一个HMM的Acoustic likelihood可以用前向算法（forward algorithm）来计算。给定一个HMM模型MMM，一个特征向量序列o1,o2,...oTo_1,o_2,...o_To1,o2,...oT，模型MMM能够生成OOO的似然度，即声学似然度P(O∣M)P(O|M)P(O∣M)定义如下：(1)P(O∣M)=∑SP(O...
复制链接

扫一扫