CTCLoss 学习笔记

最新推荐文章于 2024-08-08 04:15:00 发布

AI算法网奇

最新推荐文章于 2024-08-08 04:15:00 发布

阅读量1.8k

点赞数

分类专栏：深度学习宝典文章标签： pytorch 深度学习 python

原文链接：https://zhuanlan.zhihu.com/p/67415439

版权

深度学习宝典专栏收录该内容

998 篇文章 717 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了CTCLoss在LPRNetN车牌识别中的使用，包括CTCLoss接口的详细说明。内容涉及CTCLoss的初始化参数、计算损失值的方法，并通过实例展示了在车牌识别任务中如何利用CTCLoss进行训练。

摘要由CSDN通过智能技术生成

LPRNetN 车牌识别会用到

CTCLoss

batch_size 16

这个入门也不错：

如何使用pytorch内置torch.nn.CTCLoss的方法&&车牌识别应用_CSDNwei的专栏-CSDN博客_pytorch 车牌识别

import torch
import torch.nn as nn



ctc_loss = nn.CTCLoss()
log_probs = torch.randn(50, 16, 20).log_softmax(2).detach().requires_grad_()
targets = torch.randint(1, 20, (16, 30), dtype=torch.long)
input_lengths = torch.full((16,), 50, dtype=torch.long)
target_lengths = torch.randint(10,30,(16,), dtype=torch.long)
loss = ctc_loss(log_probs, targets, input_lengths, target_lengths)

print(loss)
# loss.backward()

以下转自：

如何优雅的使用pytorch内置torch.nn.CTCLoss的方法 - 知乎

二、CTCLoss接口使用说明

第一步，获取CTCLoss()对象

ctc_loss = nn.CTCLoss(blank=len(CHARS)-1, reduction='mean')

类初始化参数说明：

blank：空白标签所在的label值，默认为0，需要根据实际的标签定义进行设定；

reduction：处理output losses的方式，string类型，可选'none' 、 'mean' 及 'sum'，'none'表示对output losses不做任何处理，'mean' 则对output losses取平均值处理，'sum'则是对output losses求和处理，默认为'mean' 。

第二步，在迭代中调用CTCLoss()对象计算损失值

loss = ctc_loss(log_probs, targets, input_lengths, target_lengths)

CTCLoss()对象调用形参说明：

log_probs：shape为(T, N, C)的模型输出张量，其中，T表示CTCLoss的输入长度也即输出序列长度，N表示训练的batch size长度，C则表示包含有空白标签的所有要预测的字符集总长度，log_probs一般需要经过torch.nn.functional.log_softmax处理后再送入到CTCLoss中；

targets：shape为(N, S) 或(sum(target_lengths))的张量，其中第一种类型，N表示训练的batch size长度，S则为标签长度，第二种类型，则为所有标签长度之和，但是需要注意的是targets不能包含有空白标签；

input_lengths：shape为(N)的张量或元组，但每一个元素的长度必须等于T即输出序列长度，一般来说模型输出序列固定后则该张量或元组的元素值均相同；

target_lengths：shape为(N)的张量或元组，其每一个元素指示每个训练输入序列的标签长度，但标签长度是可以变化的；

举个具体例子说明如何使用CTCLoss()，如下为CTCLoss在车牌识别里面的应用:

比如我们需要预测的字符集如下，其中'-'表示空白标签；

CHARS = ['京', '沪', '津', '渝', '冀', '晋', '蒙', '辽', '吉', '黑',
         '苏', '浙', '皖', '闽', '赣', '鲁', '豫', '鄂', '湘', '粤',
         '桂', '琼', '川', '贵', '云', '藏', '陕', '甘', '青', '宁',
         '新',
         '0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
         'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J', 'K',
         'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'U', 'V',
         'W', 'X', 'Y', 'Z', 'I', 'O', '-'
         ]

因为空白标签所在的位置为len(CHARS)-1，而我们需要处理CTCLoss output losses的方式为‘mean’，则需要按照如下方式初始化CTCLoss类：

ctc_loss = nn.CTCLoss(blank=len(CHARS)-1, reduction='mean')

我们设定输出序列长度T为18，训练批大小N为4且训练数据集仅有4张车牌（为了方便说明）如下，总的字符集长度C如上面CHARS所示为68：