torch.nn.CTCLoss()的使用

陈壮实的搬砖日记

已于 2025-02-05 17:47:00 修改

阅读量3.6k

点赞数 9

分类专栏：深度学习文章标签：深度学习人工智能 python CTCLoss

于 2022-07-12 22:39:56 首次发布

本文链接：https://blog.csdn.net/qq_41915623/article/details/125753277

版权

深度学习专栏收录该内容

39 篇文章

订阅专栏

本文深入解析CTC（Connectionist Temporal Classification）损失函数，介绍其在不对齐序列标注问题中的作用，特别是在场景文本识别、语音识别等领域的应用。详细阐述了CTCLoss的使用步骤，包括初始化、计算损失值，并给出了实际示例。同时，强调了在使用过程中需要注意的几个关键点，如blank标签设置、目标序列处理和输出序列长度的设定。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1. 简介

CTC（Connectionist Temporal Classification）中文称之为“连续时序分类”，主要解决Label和output不对齐的问题。
优点： 不用强制对齐标签，即标签可边长。仅需要输入序列和监督标签序列即可进行训练。
应用场景： 场景文本识别、语音识别、手写字体识别等场景。

2. 使用

Step1： 获取CTCLoss对象

ctc_loss = nn.CTCLoss(blank=len(CHARS)-1, reduction='mean')

参数说明：
(1) blank: 空白标签所在的label值，默认为0，需要根据实际的标签定义进行设定；
我们在预测文本时，一般都是有一个空白字符的，整个blank表示的就是空白字符在总字符集中的位置。

(2) reduction: 处理output losses的方式，string类型，可选’none’ 、 ‘mean’ 及 ‘sum’，'none’表示对output losses不做任何处理，‘mean’ 则对output losses (即输出的整个batch_size的损失做操作) 取平均值处理，‘sum’则是对output losses求和处理，默认为’mean’ 。

Step2: 在迭代调用CTCLoss计算损失值

loss = ctc_loss(log_probs, targets, input_lengths, target_lengths)

参数说明：
（1）log_probs: shape=(T, N, C) 的模型输出张量，T: 表示输出的序列的长度； N: 表示batch_size值； C: 表示包含有空白标签的所有要预测的字符集总长度。

如：shape = (50, 32, 5000), 其中的50表示一幅图像最多有50个字， 32为batch_size, 5000表示整个数据集的字符集为5000个。

注： log_probs一般需要经过torch.nn.functional.log_softmax处理后再送入到CTCLoss中。

（2）targets： shape=(N, S) 或（sum(target_lengths)）的张量。其中对于第一种类型，N表示batch_size, S表示标签长度。如：shape =（32， 50），其中的32为batch_size, 50表示每个标签有50个字符。

对于第二种类型，则为所有标签之和。但需要注意的是，targets不能包含空白标签。

（3）input_lengths： shape为(N)的张量或元组，但每一个元素的长度必须等于T即输出序列长度，一般来说模型输出序列固定后则该张量或元组的元素值均相同；

（4）target_lengths： shape为(N)的张量或元组，其每一个元素指示每个训练输入序列的标签长度，但标签长度是可以变化的；

如： target_lengths = [23, 34,32, … , 45, 34]，表示第一张图片的标签长度为23个字符，第2张图片的标签长度为34个字符。

Step3: 实例“CTCLoss在车牌识别中的应用”
（1）字符集：CHARS

CHARS = ['京', '沪', '津', '渝', '冀', '晋', '蒙', '辽', '吉', '黑',
         '苏', '浙', '皖', '闽', '赣', '鲁', '豫', '鄂', '湘', '粤',
         '桂', '琼', '川', '贵', '云', '藏', '陕', '甘', '青', '宁',
         '新',
         '0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
         'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J', 'K',
         'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'U', 'V',
         'W', 'X', 'Y', 'Z', 'I', 'O', '-'
         ]

（2）获取CTCLoss对象
因为空白标签所在的位置为len(CHARS)-1，而我们需要处理CTCLoss output losses的方式为‘mean’，则需要按照如下方式初始化CTCLoss类：

ctc_loss = nn.CTCLoss(blank=len(CHARS)-1, reduction='mean')

我们设定输出序列长度T为18，训练批大小N为4且训练数据集仅有4张车牌（为了方便说明）如下，总的字符集长度C如上面CHARS所示为68：
在这里插入图片描述
（3）CTCLoss输入的解释
那么我们在训练一次迭代中打印各个输入形参得出如下结果：
1） log_probs由于数值比较多且为神经网络前向输出结果，我们仅打印其shape出来，如下：
torch.Size([18, 4, 68])

2）打印targets如下，表示这四张车牌的训练标签，根据target_lengths划分标签后可分别表示这四张车牌：
tensor([18, 45, 33, 37, 40, 49, 63, 4, 54, 51, 34, 53, 37, 38, 22, 56, 37, 38,33, 39, 34, 46, 2, 41, 44, 37, 39, 35, 33, 40]).
共30个数字，因为，上图中的车牌号的实际长度依次为：（7， 8， 8， 7），共30个字符。

3）打印target_lengths如下，每个元素分别指定了按序取targets多少个元素来表示一个车牌即标签：
(7, 7, 8, 8)

4）打印input_lengths如下，由于输出序列长度T已经设定为18，因此其元素均是固定相同的：
(18, 18, 18, 18)

其中，只要模型配置固定了后，log_probs不需要我们组装再传送到CTCLoss，但是其余三个输入形参均需要我们根据实际数据集及C、T、N的情况进行设定！

3. 需要注意的地方

3.1 官方所给的例程如下，但在实际应用中需要将log_probs的detach()去掉，否则无法反向传播进行训练；
如：

>>> ctc_loss = nn.CTCLoss()
>>> log_probs = torch.randn(50, 16, 20).log_softmax(2).detach().requires_grad_()
>>> targets = torch.randint(1, 20, (16, 30), dtype=torch.long)
>>> input_lengths = torch.full((16,), 50, dtype=torch.long)
>>> target_lengths = torch.randint(10,30,(16,), dtype=torch.long)
>>> loss = ctc_loss(log_probs, targets, input_lengths, target_lengths)
>>> loss.backward()

3.2 blank空白标签一定要依据空白符在预测总字符集中的位置来设定，否则就会出错；

3.3 targets建议将其shape设为(sum(target_lengths))，然后再由target_lengths进行输入序列长度指定就好了，这是因为如果设定为(N, S)，则因为S的标签长度如果是可变的，那么我们组装出来的二维张量的第一维度的长度仅为min(S)将损失一部分标签值（多维数组每行的长度必须一致），这就导致模型无法预测较长长度的标签；

3.4 输出序列长度T尽量在模型设计时就要考虑到模型需要预测的最长序列，如需要预测的最长序列其长度为I，则理论上T应大于等于2I+1，这是因为CTCLoss假设在最坏情况下每个真实标签前后都至少有一个空白标签进行隔开以区分重复项；

3.5 输出的log_probs除了进行log_softmax()处理再送入CTCLoss外，还必须要调整其维度顺序，确保其shape为(T, N, C)！

注：
有参考：[添加链接描述](https://zhuanlan.zhihu.com/p/67415439)
对其进行了一定的自我理解。