【Learning Notes】CTC 原理及实现

最新推荐文章于 2022-07-18 06:38:46 发布

MoussaTintin

最新推荐文章于 2022-07-18 06:38:46 发布

阅读量2.5w

点赞数 55

分类专栏：原创机器学习深度学习人工智能语音技术文章标签： CTC 机器学习序列学习

本文链接：https://blog.csdn.net/JackyTintin/article/details/79425866

版权

本文详细探讨了CTC（Connectionist Temporal Classification）的算法原理，包括序列问题形式化、align-free变长映射、似然计算、前向与后向算法以及梯度计算。此外，还讨论了数值稳定性，如log域计算和scale技巧，以应对训练中的数值下溢风险。同时，介绍了多种解码策略，如贪心搜索、束搜索和前缀束搜索。CTC适用于序列建模任务，尤其在无对齐信息的多对多序列问题中，如语音识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CTC（ Connectionist Temporal Classification，连接时序分类）是一种用于序列建模的工具，其核心是定义了特殊的目标函数/优化准则[1]。

jupyter notebook 版见 repo.

1. 算法

这里大体根据 Alex Graves 的开山之作[1]，讨论 CTC 的算法原理，并基于 numpy 从零实现 CTC 的推理及训练算法。

1.1 序列问题形式化。

序列问题可以形式化为如下函数：

N w : (R m) T \to (R n) T

$\mathcal{N}_w: (\mathcal{R}^m)^T \rightarrow (\mathcal{R}^n)^T$
其中，序列目标为字符串（词表大小为

n n $n$ ），即

N_{w}

$\mathcal{N}_w$ 输出为

n n $n$ 维多项概率分布（e.g. 经过 softmax 处理）。

网络输出为： $y = \mathcal{N}_w$ ，其中， $y_k^t$ $t$ 表示时刻第 $k$ 项的概率。

图1. 序列建模【src】

虽然并没为限定 $\mathcal{N}_w$ 具体形式，下面为假设其了某种神经网络（e.g. RNN）。
下面代码示例 toy $\mathcal{N}_w$ ：

import numpy as np

np.random.seed(1111)

T, V = 12, 5
m, n = 6, V

x = np.random.random([T, m])  # T x m
w = np.random.random([m, n])  # weights, m x n

def softmax(logits):
    max_value = np.max(logits, axis=1, keepdims=True)
    exp = np.exp(logits - max_value)
    exp_sum = np.sum(exp, axis=1, keepdims=True)
    dist = exp / exp_sum
    return dist

def toy_nw(x):
    y = np.matmul(x, w)  # T x n 
    y = softmax(y)
    return y

y = toy_nw(x)
print(y)
print(y.sum(1, keepdims=True))

[[ 0.24654511  0.18837589  0.16937668  0.16757465  0.22812766]
 [ 0.25443629  0.14992236  0.22945293  0.17240658  0.19378184]
 [ 0.24134404  0.17179604  0.23572466  0.12994237  0.22119288]
 [ 0.27216255  0.13054313  0.2679252   0.14184499  0.18752413]
 [ 0.32558002  0.13485564  0.25228604  0.09743785  0.18984045]
 [ 0.23855586  0.14800386  0.23100255  0.17158135  0.21085638]
 [ 0.38534786  0.11524603  0.18220093  0.14617864  0.17102655]
 [ 0.21867406  0.18511892  0.21305488  0.16472572  0.21842642]
 [ 0.29856607  0.13646801  0.27196606  0.11562552  0.17737434]
 [ 0.242347    0.14102063  0.21716951  0.2355229   0.16393996]
 [ 0.26597326  0.10009752  0.23362892  0.24560198  0.15469832]
 [ 0.23337289  0.11918746  0.28540761  0.20197928  0.16005275]]
[[ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]]

1.2 align-free 变长映射

上面的形式是输入和输出的一对一的映射。序列学习任务一般而言是多对多的映射关系（如语音识别中，上百帧输出可能仅对应若干音节或字符，并且每个输入和输出之间，也没有清楚的对应关系）。CTC 通过引入一个特殊的 blank 字符（用 % 表示），解决多对一映射问题。

扩展原始词表 $L$ 为 $L^\prime = L \cup \{\text{blank}\}$ 。对输出字符串，定义操作 $\mathcal{B}$ ：1）合并连续的相同符号；2）去掉 blank 字符。

例如，对于 “aa%bb%%cc”，应用 $\mathcal{B}$ ，则实际上代表的是字符串 “abc”。同理“%a%b%cc%” 也同样代表 “abc”。

B (a a % b b % % c c) = B (% a % b % c c %) = a b c

$\mathcal{B}(aa\%bb\%\%cc) = \mathcal{B}(\%a\%b\%cc\%) = abc$

通过引入blank 及 $\mathcal{B}$ ，可以实现了变长的映射。

L' T \to L \leq T

$L^{\prime T} \rightarrow L^{\le T}$

因为这个原因，CTC 只能建模输出长度小于输入长度的序列问题。

1.3 似然计算

和大多数有监督学习一样，CTC 使用最大似然标准进行训练。

给定输入 $x$ ，输出 $l$ 的条件概率为：

p (l | x) = \sum π \in B - 1 (l) p (π | x)

$p(l|x) = \sum_{\pi \in \mathcal{B}^{-1}(l)} p(\pi|x)$

其中， $\mathcal{B}^{-1}(l)$ 表示了长度为 $T$ 且示经过 $\mathcal{B}$ 结果为 $l$ 字符串的集合。

CTC 假设输出的概率是（相对于输入）条件独立的，因此有：

p (π | x) = \prod y_{π_{t}}^{t}, \forall π \in L^{' T}

$p(\pi|x) = \prod y^t_{\pi_t}, \forall \pi \in L^{\prime T}$

然而，直接按上式我们没有办理有效的计算似然值。下面用动态规划解决似然的计算及梯度计算, 涉及前向算法和后向算法。

1.4 前向算法

在前向及后向计算中，CTC 需要将输出字符串进行扩展。具体的， $(a_1,\cdots,a_m)$ 每个字符之间及首尾分别插入 blank，即扩展为 $(\%, a_1,\%,a_2, \%,\cdots,\%, a_m,\%)$ 。下面的 $l$ 为原始字符串， $l^\prime$ 指为扩展后的字符串。

定义

α t (s) = d e f \sum π \in N T : B (π 1 : t) = l 1 : s \prod t' = 1 t y t π'

$\alpha_t(s) \stackrel{def}{=} \sum_{\pi \in N^T: \mathcal{B}(\pi_{1:t}) = l_{1:s}} \prod_{t^\prime=1}^t y^t_{\pi^\prime}$

显然有，

α 1 (1) = y 1 b, α 1 (2) = y 1 l 1, α 1 (s) = 0, \forall s > 2 (1) (2) (3)

$\begin{align} \alpha_1(1) = y_b^1,\\ \alpha_1(2) = y_{l_1}^1,\\ \alpha_1(s) = 0, \forall s > 2 \end{align}$
根据

α α $\alpha$ 的定义，有如下递归关系：

α t (s) = {(α t - 1 (s) + α t - 1 (s - 1)) y t l' s, i f l' s = b o r l' s - 2 = l' s (α t - 1 (s) + α t - 1 (s - 1) + α t - 1 (s - 2)) y t l' s o t h e r w i s e

$\alpha_t(s) = \{ \begin{array}{l} (\alpha_{t-1}(s)+\alpha_{t-1}(s-1)) y^t_{l^\prime_s},\ \ \ if\ l^\prime_s = b \ or\ l_{s-2}^\prime = l_s^{\prime} \\ (\alpha_{t-1}(s)+\alpha_{t-1}(s-1) + \alpha_{t-1}(s-2)) y^t_{l^\prime_s} \ \ otherwise \end{array}$

1.4.1 Case 2

递归公式中 case 2 是一般的情形。如图所示， $t$ 时刻字符为 $s$ 为 blank 时，它可能由于两种情况扩展而来：1）重复上一字符，即上个字符也是 a，2）字符发生转换，即上个字符是非 a 的字符。第二种情况又分为两种情形，2.1）上一字符是 blank；2.2）a 由非 blank 字符直接跳转而来（ $\mathcal{B}$ ）操作中， blank 最终会被去掉，因此 blank 并不是必须的）。

图2. 前向算法 Case 2 示例【src】