TPAMI 2022 | 自动搜索文本识别网络的高性能特征提取器

最新推荐文章于 2024-08-05 15:45:00 发布

PaperWeekly

最新推荐文章于 2024-08-05 15:45:00 发布

阅读量730

点赞数

文章标签：网络深度学习计算机视觉人工智能神经网络

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/128072298

版权

本文提出了一个使用神经架构搜索（NAS）自动寻找文本识别（TR）网络高效特征提取器的方法。研究中，设计了特定于TR任务的搜索空间，包括针对视觉和序列特征的卷积神经网络（CNN）和Transformer变体。通过两阶段的one-hot NAS，优化了模型的准确性和推理速度，适用于资源受限的部署环境。实验结果显示，提出的模型在准确性和速度上优于现有的SOTA模型。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 陈卓群

单位 | 清华大学

论文标题：

Searching a High Performance Feature Extractor for Text Recognition Network

收录情况：

TPAMI

论文链接：

https://ieeexplore.ieee.org/document/9887897

代码链接：

https://github.com/AutoML-Research/TREFE

引言

文本识别（Text Recognition）是一项旨在从图像中提取文本字符串的技术，对于工业界和学术界都有着很大的吸引力。而文本所具有的形色各异的外观、大小、字体、背景、书写风格和排版，都使得 TR 成为了一项非常有挑战性的问题。如 Fig1 所示，传统的 TR 系统可以大致被分为三个部分：

1. 图像预处理模块，针对自然语言场景中的实际情况，把输入图像转化为一个更便于识别的形式。主要实现方式有图像校正、超分辨率和降噪；

2. 特征提取器，用来从文本图像中提取特征。目前大部分特征提取器的实现形式都是通过 CNN 和 RNN 的结合，CNN 从图像中提取视觉特征，然后通过 RNN 增强时序依赖特征，生成鲁棒的序列特征；

3. 识别头，用来输出字符序列。目前较为流行的做法是基于神经网络的 CTC、字符分割、基于注意力的序列到序列、基于注意力的并行解码等。

特征提取器在 TR 中发挥着关键的作用，并且占据着大量的数据计算和存储开销。但由于手动调参的成本较高，因此对于特征提取器的结构个性化方面探索较少。现有方法往往直接使用起初为其他任务设计的 CNN 和 RNN 网络（如 TABLE 1），包括用于图像分类的 ResNet 和用于机器翻译的 BiLSTM，并没有针对 TR 任务进行调优。

除此之外，TR 系统在部署到终端时，通常会有推理延迟的限制，现有的设计方案并没有考虑到这一点，在手动调整 TR 系统以适应延迟的同时，很难保证高精度的识别。

近期研究表明，神经架构搜索（NAS）可以在图像分类、语义分割、目标检测等计算机视觉任务中产出良好的神经架构，受此启发，摒弃此前需要专家手动设计架构的方法，本文提议使用 one-hot NAS 来搜寻高性能的 TR 特征提取器。

具体来说，我们首先为视觉和序列特征提取器设计一个特定于 TR 任务的搜索空间。对于视觉部分，该搜索空间支持对卷积类型和下采样路径进行选择；对于序列部分，本文提议使用 Transformer 替代，其比 TR 任务中常用的 BiLSTM 具有更强的并发性，但是 Vanilla Transformer 很难优于 BiLSTM。因此，本文进一步探索了 Transformer 近期的发展，并搜寻 Transformer 的变体。

由于合成的超网之巨大，本文提议

最低0.47元/天解锁文章

PaperWeekly

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
TPAMI 2022 | 自动搜索文本识别网络的高性能特征提取器

©PaperWeekly 原创 ·作者 |陈卓群单位 |清华大学论文标题：Searching a High Performance Feature Extractor for Text Recognition Network收录情况：TPAMI论文链接：https://ieeexplore.ieee.org/document/9887897代码链接：https://github.com/Au...
复制链接

扫一扫