动手学CV-Pytorch计算机视觉 使用transformer实现OCR字符识别
本文将以 ICDAR2015 Incidental Scene Text
中的 Task 4.3: Word Recognition 单词识别子任务作为数据集,讲解如何使用transformer来实现一个简单的OCR文字识别任务,并从中体会transformer是如何应用到除分类以外更复杂的CV任务中的。
文章将大致从以下几个方面讲解:
- 数据集简介
- 数据分析与字符映射关系构建
- 如何将transformer引入OCR
- 训练框架代码讲解
注:本文未涉及过多transformer原理的讲解,更注重围绕如何设计模型和训练架构来解决OCR任务进行讲解。对transformer原理及代码并不熟悉的小伙伴需要先学习本文的前置章节《6.1 hello transformer》,重点讲解了 transformer 的代码实现。
本实验代码位于dive-into-cv-pytorch/code/chapter06_transformer/6.2_recognition_by_transformer
主要包括以下几个文件:
- analysis_recognition_dataset.py (数据集分析脚本)
- ocr_by_transformer.py