TIA(Text Image Augmentation) + LtA(Learn to Augmentation):文本图像扩增工具 + 学习生成更有效的训练样本

Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition,2020

自说自话:
本篇论文的贡献可以分为两大部分(目前先就下面第一点记录一下,别的就先不聊了。):

  • 针对文字识别任务的文本图像扩增方法和工具,相比普通的扩增方法能够达到更好的识别效果,核心原因是更能模仿场景文字的各种弯曲变形。另外,手写体的千变万化也给识别带来困难,本扩增方法对手写体识别也有很大益处
  • 提出一种方法和网络让模型“学习如何扩增”(更有效/更难的数据)。

这个扩增方法在 github 上开源了代码,项目名为 Text Image Augmentation,后面就称其为 TIA 吧。TIA 被 PP-OCR 采用作为文本图像扩增方法之一,其与其他普通扩增方法的对比效果如下图 1。可以看到打印体以及手写体的扩增效果对比,TIA 更能/像场景图片中以及手写体中的妖娆模样 23333。

在这里插入图片描述
上图中主要体现的是 “变形” distort,在代码实现中还有其他两种“拉扯”stretch 和多段仿射变换 perspective,论文里面好像重点说的 distort。distort 过程中会先将图片分成高度不变宽度变小的若干片段,然后根据片段的宽度的大小按照 1/3 的比例确定各个分割点的“活动范围”,然后就随机让各点在各自的范围内随机取值,然后分段 warp 再拼接,示意图如下:
在这里插入图片描述
3 种效果的对比如下。
Distort:
请添加图片描述
Perspective:
请添加图片描述
Stretch:
请添加图片描述

另外:
如果扩增模型和识别模型是同时训练的,那有点对抗的意思;如果识别模型完全没动,那就是生成更好的样本。整体的示意图如下图 2,其中 Recognizer 有 loss,所以应该是对抗的:
在这里插入图片描述

Abstract

Introduction

Related Work

Methodology

Overall Framework

Text Augmentation

Learnable Agent

Experiments

Scene Text Datasets

Handwritten Text Datasets

Implementation Details

Ablation Study

Integration with State-of-the-art Methods

Conclusion

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值