TPAMI 2022 | 自动搜索文本识别网络的高性能特征提取器

本文提出了一个使用神经架构搜索(NAS)自动寻找文本识别(TR)网络高效特征提取器的方法。研究中,设计了特定于TR任务的搜索空间,包括针对视觉和序列特征的卷积神经网络(CNN)和Transformer变体。通过两阶段的one-hot NAS,优化了模型的准确性和推理速度,适用于资源受限的部署环境。实验结果显示,提出的模型在准确性和速度上优于现有的SOTA模型。
摘要由CSDN通过智能技术生成

aedd149a22571dfaf1bdb823663e38b0.gif

©PaperWeekly 原创 · 作者陈卓群

单位 | 清华大学

2408547da6c29a20ac114bd7a23cf1eb.png

论文标题:

Searching a High Performance Feature Extractor for Text Recognition Network

收录情况:

TPAMI

论文链接:

https://ieeexplore.ieee.org/document/9887897

代码链接:

https://github.com/AutoML-Research/TREFE

d1b9b4a20e6cc0acbbc04487808215d6.png

引言

文本识别(Text Recognition)是一项旨在从图像中提取文本字符串的技术,对于工业界和学术界都有着很大的吸引力。而文本所具有的形色各异的外观、大小、字体、背景、书写风格和排版,都使得 TR 成为了一项非常有挑战性的问题。如 Fig1 所示,传统的 TR 系统可以大致被分为三个部分:

1. 图像预处理模块,针对自然语言场景中的实际情况,把输入图像转化为一个更便于识别的形式。主要实现方式有图像校正、超分辨率和降噪;

2. 特征提取器,用来从文本图像中提取特征。目前大部分特征提取器的实现形式都是通过 CNN 和 RNN 的结合,CNN 从图像中提取视觉特征,然后通过 RNN 增强时序依赖特征,生成鲁棒的序列特征;

3. 识别头,用来输出字符序列。目前较为流行的做法是基于神经网络的 CTC、字符分割、基于注意力的序列到序列、基于注意力的并行解码等。

439cdc6714607ad58090c0e6d5a81a29.png

特征提取器在 TR 中发挥着关键的作用,并且占据着大量的数据计算和存储开销。但由于手动调参的成本较高,因此对于特征提取器的结构个性化方面探索较少。现有方法往往直接使用起初为其他任务设计的 CNN 和 RNN 网络(如 TABLE 1),包括用于图像分类的 ResNet 和用于机器翻译的 BiLSTM,并没有针对 TR 任务进行调优。

8b1cf0e8ac9ee691aa2e756b80648bf3.png

除此之外,TR 系统在部署到终端时,通常会有推理延迟的限制,现有的设计方案并没有考虑到这一点,在手动调整 TR 系统以适应延迟的同时,很难保证高精度的识别。 

近期研究表明,神经架构搜索(NAS)可以在图像分类、语义分割、目标检测等计算机视觉任务中产出良好的神经架构,受此启发,摒弃此前需要专家手动设计架构的方法,本文提议使用 one-hot NAS 来搜寻高性能的 TR 特征提取器。

具体来说,我们首先为视觉和序列特征提取器设计一个特定于 TR 任务的搜索空间。对于视觉部分,该搜索空间支持对卷积类型和下采样路径进行选择;对于序列部分,本文提议使用 Transformer 替代,其比 TR 任务中常用的 BiLSTM 具有更强的并发性,但是 Vanilla Transformer 很难优于 BiLSTM。因此,本文进一步探索了 Transformer 近期的发展,并搜寻 Transformer 的变体。 

由于合成的超网之巨大,本文提议

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值