CTC损失函数笔记

会飞的鱼chelmx

已于 2022-02-05 00:29:13 修改

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：深度学习算法机器学习语音识别自然语言处理

于 2022-02-04 23:25:57 首次发布

本文链接：https://blog.csdn.net/m0_37142194/article/details/122786922

版权

深度学习专栏收录该内容

13 篇文章

订阅专栏

CTC损失函数笔记

1. 时序分类

假设训练集 $S$ 来自于分布 $D_{\mathcal{X}\times \mathcal{Z}}$ ，其中 $\mathcal{X}=(\mathbb{R}^m)^*$ 表示输入序列空间， $\mathcal{Z}=L^*$ 表示目标序列空间。每个训练数据由一对序列 $(\mathbf{x},\mathbf{z})$ 组成，其中目标序列 $\mathbf{z}=(z_1,z_2,\ldots,z_U)$ 的元素个数 $U$ 至多不会超过输入序列 $\mathbf{x}=(x_1,x_2,\ldots,x_T)$ 的元素个数 $T$ 。

1.1 标签错误率(LER)

假设 $S^{'}$ 表示测试集， $h$ 表示时序分类器，标签错误率 $L E R$ 公式如下：

$LER(h,S')=\frac{1}{Z}\sum_{(\mathbf{x},\mathbf{z})\in S'}ED(h(\mathbf{x}))\tag{1}$
其中 $Z$ 表示测试集样本个数， $E D$ 表示编辑距离。

编辑距离：指两个字符串相互转换所需要的最少编辑次数。转换操作包括替换、插入以及删除。

2. 连接时序分类(CTC)

2.1 从网络输出到标签序列

CTC网络最后一层为softmax输出层，其输出节点一共有 $L + 1$ 个，最后一个节点输出表示空标签( $b l a n k$ )。假设某一权重为 $w$ 的循环神经网络 $\mathcal{N}_w$ ，输入为 $\mathbf{x}\in(\mathbb{R}^m)^T$ ，输出为 $\mathbf{y}\in(\mathbb{R}^n)^T$ ，其映射公式如下：

$\mathbf{y}=\mathcal{N}_w(\mathbf{x})\tag{2}$
$y_k^t$ 表示网络在 $t$ 时刻的第 $k$ 个节点输出，可被视作第 $k$ 个标签在字母表 $L'=L\cup \{blank\}$ 上的概率。假设输出层不存在反馈连接，则不同时刻 $t$ 网络 $\mathcal{N}_w$ 的输出分布 $y^t$ 条件独立。任意序列 $\pi\in (L')^T$ （ $\pi$ 也被称作路径）在 $\mathbf{x}$ 输入下的概率密度公式如下：

$p(\pi|\mathbf{x})=\prod_{t=1}^Ty_{\pi_t}^t\tag{3}$

不太明白为什么 $y_{\pi_t}^t$ 条件独立？

定义一种多到一的变换关系 $\mathcal{B}:(L')^T\rightarrow (L)^{\leq T}$ ， $\mathcal{B}$ 变换会删除序列中的空标签以及重复标签（例如 $\mathcal{B}(a-ab-)=\mathcal{B}(-aa--abb)=aab$ ）。利用 $\mathcal{B}^{-1}$ 反变换可以定义标签序列 $\mathbf{l}\in(L)^{\leq T}$ 在 $\mathbf{x}$ 输入下的概率密度：

$p(\mathbf{l}|\mathbf{x})=\sum_{\pi\in\mathcal{B}^{-1}(\mathbf{l})}p(\pi|\mathbf{x})\tag{4}$

$\mathcal{B}$ 变换先删除重复标签再删除空标签？

2.2 构造分类器

根据式 $(4)$ ，我们定义时序分类器输出如下：

$h(\mathbf{x})=\arg \max_{\mathbf{l}\in L^{\leq T}}p(\mathbf{l}|\mathbf{x})\tag{5}$
利用隐马尔可夫术语，我们将分类器从输入序列到标签序列的映射称作解码。由于标签序列 $\mathbf{l}$ 的 $\mathcal{B}^{-1}$ 反变换所对应的路径 $\pi$ 是指数级数量，所以式 $(5)$ 所表示的解码算法难以直接计算。在实际中，我们用如下两种近似方式实现解码算法。

第一种方式为最佳路径解码(best path decoding)，其数学表示如下：

$h(\mathbf{x})\approx\mathcal{B}(\pi^*),\pi^*=\arg\max_{\pi\in N^t}p(\pi|\mathbf{x})\tag{6}$
最佳路径解码在计算上的开销可以忽略不计，但这种方式不能保证找到最大概率标签序列。

第二种方式为前缀搜索解码(prefix search decoding)，这是一种前向-反向算法。只要有足够的时间，前缀搜索解码总能找到最大概率标签序列。

3. 训练网络

3.1 CTC前向-反向算法

定义前向变量 $\alpha_t(s)$ 如下：

$\alpha_t(s)=\sum_{\begin{matrix}\pi\in N^T\\\mathcal{B}(\pi_{1:t})=\mathbf{l}_{1:s}\end{matrix}}\prod_{t'=1}^ty_{\pi_{t'}}^{t'}\tag{7}$
为了考虑输出序列中存在空标签的情况，在标签序列 $\mathbf{l}$ 的每个标签前后插入空标签生成一个长度为 $2|\mathbf{l}|+1$ 修正标签序列 $\mathbf{l}'$ 。定义在 $\mathbf{l}'$ 上的前向变量初始条件如下：

$\left\{\begin{aligned}\alpha_1(1)&=y_b^1\\\alpha_1(2)&=y_{\mathbf{l}_1}^1\\\alpha_1(s)&=0,\forall s>2\end{aligned}\right.\tag{8}$
前向变量递推公式如下：

$\alpha_t(s)=\left\{\begin{aligned}&\overline\alpha_t(s)y_{\mathbf{l}'_s}^t,&\operatorname{if}\ \mathbf{l}'_s=b\ \operatorname{or}\ \mathbf{l}'_{s-2}=\mathbf{l}'_s\\&(\overline\alpha_t(s)+\alpha_{t-1}(s-2))y_{\mathbf{l}'_s}^t,&\operatorname{otherwise}\end{aligned}\right.\\\operatorname{where}\ \overline\alpha_t(s)=\alpha_{t-1}(s)+\alpha_{t-1}(s-1)\tag{9}$
条件概率 $p(\mathbf{l}|\mathbf{x})$ 可用前向变量表示为：

$p(\mathbf{l}|\mathbf{x})=\alpha_T(|\mathbf{l}'|)+\alpha_T(|\mathbf{l}'|-1)\tag{10}$
定义后向变量 $\beta_t(s)$ 如下：

$\beta_t(s)=\sum_{\begin{matrix}\pi\in N^T\\\mathcal{B}(\pi_{t:T})=\mathbf{l}_{s:|\mathbf{l}|}\end{matrix}}\prod_{t'=t}^Ty_{\pi_{t'}}^{t'}\tag{11}$
定义在 $\mathbf{l}'$ 上的后向变量初始条件如下：

$\left\{\begin{aligned}\beta_T(|\mathbf{l}'|)&=y_b^T\\\beta_T(|\mathbf{l}'|-1)&=y_{\mathbf{l}_{|\mathbf{l}|}}^T\\\beta_T(s)&=0,\forall s<|\mathbf{l}'|-1\end{aligned}\right.\tag{12}$
后向变量递推公式如下：

$\beta_t(s)=\left\{\begin{aligned}&\overline\beta_t(s)y_{\mathbf{l}'_s}^t,&\operatorname{if}\ \mathbf{l}'_s=b\ \operatorname{or}\ \mathbf{l}'_{s+2}=\mathbf{l}'_s\\&(\overline\beta_t(s)+\beta_{t+1}(s+2))y_{\mathbf{l}'_s}^t,&\operatorname{otherwise}\end{aligned}\right.\\\operatorname{where}\ \overline\beta_t(s)=\beta_{t+1}(s)+\beta_{t+1}(s+1)\tag{13}$
在实际计算中，前向或后向变量的递推很可能造成数据溢出。为了避免这种情况的发生需要对变量进行归一化操作：

$\left\{\begin{aligned}\hat{\alpha}_t(s)=\frac{\alpha_t(s)}{C_t},C_t=\sum_s\alpha_t(s)\\\hat{\beta}_t(s)=\frac{\beta_t(s)}{D_t},D_t=\sum_s\beta_t(s)\end{aligned}\right.\tag{14}$
对数条件概率 $p(\mathbf{l}|\mathbf{x})$ 可用归一化变量表示为：

$\ln(p(\mathbf{l}|\mathbf{x}))=\sum_{t=1}^T\ln(C_t)\tag{15}$

3.2 极大似然训练

极大似然训练的优化目标如下式所示：

$O^{ML}(S,\mathcal{N}_w)=-\sum_{(\mathbf{x},\mathbf{z})\in S}\ln(p(\mathbf{z}|\mathbf{x}))\tag{16}$
由于训练集样本独立，考虑单个样本点偏导：

$\frac{\partial O^{ML}(\{(\mathbf{x}|\mathbf{z})\},\mathcal{N}_w)}{\partial y_k^t}=-\frac{\partial \ln(p(\mathbf{z}|\mathbf{x}))}{\partial y_k^t}\tag{17}$
根据前向变量以及后向变量定义可得：

$\alpha_t(s)\beta_t(s)=\sum_{\begin{matrix}\pi\in \mathcal{B}^{-1}(\mathbf{l})\\\pi_{t}=\mathbf{l}'_s\end{matrix}}y_{\mathbf{l}'_s}^t\prod_{t=1}^Ty_{\pi_t}^t\tag{18}$

式 $(18)$ 应从前向变量和后向变量所表达的概率含义理解，不能从等式理解。

结合式 $(3)$ 可得：

$\frac{\alpha_t(s)\beta_t(s)}{y_{\mathbf{l}'_s}^t}=\sum_{\begin{matrix}\pi\in \mathcal{B}^{-1}(\mathbf{l})\\\pi_{t}=\mathbf{l}'_s\end{matrix}}p(\pi|\mathbf{x})\tag{19}$
由式 $(19)$ 可得，条件概率 $p(\mathbf{l}|\mathbf{x})$ 公式如下：

$p(\mathbf{l}|\mathbf{x})=\sum_{s=1}^{|\mathbf{l}'|}\frac{\alpha_t(s)\beta_t(s)}{y_{\mathbf{l}'_s}^t}\tag{20}$
定义一种位置集合 $lab(\mathbf{l},k)=\{s:\mathbf{l}'_s=k\}$ ，对式 $(20)$ 求偏导可得：

$\frac{\partial p(\mathbf{l}|\mathbf{x})}{\partial y_k^t}=\frac{1}{{y_k^t}^2}\sum_{lab(\mathbf{l},k)=\{s:\mathbf{l}'_s=k\}}\alpha_t(s)\beta_t(s)\tag{21}$

结合式 $(9)$ $(13)$ ，取 $y_{\mathbf{l}'_s}^t=y_k^t$ 。

对对数条件概率 $\ln p(\mathbf{l}|\mathbf{x})$ 求偏导可得：

$\frac{\partial \ln(p(\mathbf{l}|\mathbf{x}))}{\partial y_k^t}=\frac{1}{p(\mathbf{l}|\mathbf{x})}\frac{\partial p(\mathbf{l}|\mathbf{x})}{\partial y_k^t}\tag{22}$
可将 $\mathbf{l}=\mathbf{z}$ 带入式 $(22)$ 求得对数条件概率 $\ln p(\mathbf{z}|\mathbf{x})$ 的偏导。 $y_k^t$ 是softmax层输出，优化目标函数 $O^{ML}(\{\mathbf{x}|\mathbf{z}\},\mathcal{N}_w)$ 对softmax层输入 $u_k^t$ 求偏导可得：

$\frac{\partial O^{ML}(\{(\mathbf{x},\mathbf{z})\},\mathcal{N}_w)}{\partial u_k^t}=y_k^t-\frac{1}{y_k^tZ_t}\sum_{s\in lab(\mathbf{z},k)}\hat{\alpha}_t(s)\hat{\beta}_t(s)\\\operatorname{where}\ Z_t=\sum_{s=1}^{|\mathbf{l}'|}\frac{\hat{\alpha}_t(s)\hat{\beta}_t(s)}{y_{\mathbf{l}'_s}^t}\tag{23}$