Learn to Augment: Joint Data Augmentation and Network Optimizationfor Text Recognition

Abstract

we propose a new method for text image augmentation. Different from traditional augmentation methods such as rotation, scaling and perspective transformation, our proposed augmentation method is designed to learn proper and effificient data augmentation which is more effective and specifific for training a robust recognizer.


Introduction

对于提升鲁棒性,几何增强是一种重要的方式。普众的几何增强方式有旋转、缩放、透视变换。这种变换方式一般是将多个字符看作一个整体,忽视了每个字符的多样性。对于一张文本图像,增强的目标应该是增加每个字符的多样性。其次,随机增强这种策略,忽略了样本之间的差异和网络的优化过程。在人工控制静态分布的情况下,增强操作可能会产生对训练无用的简单样本。因此静态分布下的随机增强也不适合动态优化过程。

针对类似序列的字符,提出了新的数据增强方式,彻重于对图像进行空间变换。我们首先在图像上初始化一组基准点,然后移动这些点来生成新的图像。移动状态是从代理网络的预测分布中采样的,它表示点的移动以创建更难的训练样本。然后,增强模块将运动状态和图像作为输入,生成新的图像。我们采用基于移动最小二乘法[35]的相似性变换来生成图像。此外,还将随机运动状态馈送到增强模块以生成随机增强图像。最后,智能体从增加识别难度的运动状态中学习。难度是在编辑距离的度量下衡量的,编辑距离与识别性能高度相关。


Methodology

Overall Framework

首先,我们初始化图像上的一组自定义基准点。将代理网络预测的移动状态和随机生成的移动状态反馈给增强模块。移动状态表示一组自定义基准点的移动。然后,增强模块将图像作为输入,分别对运动状态进行变换。识别器预测放大图像上的文本串。最后,我们测量在编辑距离度量下的增强图像的识别难度。代理从增加难度的移动状态中学习,并探索识别器的弱点。结果,识别器从难训练样本中获得了鲁棒性。

Text Augmentation

 如图3所示,我们将图像平均划分为N个块,并沿图像顶部和底部边界初始化2(N+1)个基准点p。在此之后,我们通过遵循一定的分布并将基准点随机移动到半径R内的Q来增强图像。

Learnable Agent

我们将寻找较硬失真样本的问题描述为一个运动学习问题。如图3所示,给定一幅图像,我们随机移动基准点以扭曲图像。每个基准点的移动运算(∆x,∆y)与两个因素有关:1)移动方向,即(∆x,∆y)的符号;2)移动距离,即(|∆x|,|∆y|)。在我们的实践中,距离的学习过程并不能收敛。对于代理网络来说,很难精确地学习运动的距离。另一个有趣的观察是,失败的代理网络总是预测最大移动距离,以产生过度扭曲的样本,这降低了识别器训练的稳定性。因此,我们将学习空间限制在运动方向上。根据移动方向,在半径范围内随机生成移动距离。它避免了代理网络预测繁琐的运动,因为随机性在增强过程中引入了不确定性。此外,可以将代理网络设计为轻量级的体系结构。
如表1所示,代理网络仅由六个卷积层和一个完全连接层组成。代理网络的存储需求小于15M


Experiments




  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开始学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值