TIA（Text Image Augmentation） + LtA（Learn to Augmentation）：文本图像扩增工具 + 学习生成更有效的训练样本

最新推荐文章于 2023-05-24 16:55:21 发布

Abandon_first

最新推荐文章于 2023-05-24 16:55:21 发布

阅读量920

点赞数

分类专栏： OCR 文章标签： ocr 图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Abandon_first/article/details/119937682

版权

OCR 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition，2020

自说自话：
本篇论文的贡献可以分为两大部分（目前先就下面第一点记录一下，别的就先不聊了。）：

针对文字识别任务的文本图像扩增方法和工具，相比普通的扩增方法能够达到更好的识别效果，核心原因是更能模仿场景文字的各种弯曲变形。另外，手写体的千变万化也给识别带来困难，本扩增方法对手写体识别也有很大益处。
提出一种方法和网络让模型“学习如何扩增”（更有效/更难的数据）。

这个扩增方法在 github 上开源了代码，项目名为 Text Image Augmentation，后面就称其为 TIA 吧。TIA 被 PP-OCR 采用作为文本图像扩增方法之一，其与其他普通扩增方法的对比效果如下图 1。可以看到打印体以及手写体的扩增效果对比，TIA 更能/像场景图片中以及手写体中的妖娆模样 23333。

在这里插入图片描述
上图中主要体现的是 “变形” distort，在代码实现中还有其他两种“拉扯”stretch 和多段仿射变换 perspective，论文里面好像重点说的 distort。distort 过程中会先将图片分成高度不变宽度变小的若干片段，然后根据片段的宽度的大小按照 1/3 的比例确定各个分割点的“活动范围”，然后就随机让各点在各自的范围内随机取值，然后分段 warp 再拼接，示意图如下：
在这里插入图片描述
3 种效果的对比如下。
Distort:
请添加图片描述
Perspective：

Stretch：

另外：
如果扩增模型和识别模型是同时训练的，那有点对抗的意思；如果识别模型完全没动，那就是生成更好的样本。整体的示意图如下图 2，其中 Recognizer 有 loss，所以应该是对抗的：
在这里插入图片描述

Abstract

Introduction

Related Work

Methodology

Overall Framework

Text Augmentation

Learnable Agent

Experiments

Scene Text Datasets

Handwritten Text Datasets

Implementation Details

Ablation Study

Integration with State-of-the-art Methods

Conclusion

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TIA（Text Image Augmentation） + LtA（Learn to Augmentation）：文本图像扩增工具 + 学习生成更有效的训练样本

全篇都是个人看法。首页左上角图标可以再大一点，现在有一些拘谨。所有解决 “xx” 的短语和句子读起来都觉得“戛然而止”。不仅一处，不再枚举。所有类似两行文字介绍读起来都不舒服，乍一看不知道怎么断句，加号也很突兀。不仅一处，不再枚举。此条不确定是不是我自己页面的问题。点击“院外患者管理”跳转时，不会正好跳转到新页面对应的位置，还需要滚动一下才能看到对应介绍（如下图）。其他“智慧互联网医院”等同理。仅从文字上看，有两个“翼心产品”，到底概念上哪个是“翼心产品”？最下面 2
复制链接

扫一扫

专栏目录

Abandon_first CSDN认证博客专家 CSDN认证企业博客

码龄9年

77: 原创

39万+: 周排名

167万+: 总排名

9万+: 访问

: 等级

637: 积分

47: 粉丝

100: 获赞

118: 评论

336: 收藏

私信

关注

热门文章

分类专栏

最新评论

Tensorflow 版本切换与 slim 问题
疏雨洗天清: 牛的哥,还得是你
关于 tflite 移动端部署中如何为 tflite 模型添加 metadata
战战兢兢59: 这个是我的代码。 # Object detector TFLite metadata writer import argparse from tflite_support.metadata_writers import object_detector from tflite_support.metadata_writers import writer_utils from tflite_support import metadata #from tensorflow_lite_support.metadata.python.metadata_writers import object_detector #from tensorflow_lite_support.metadata.python.metadata_writers import writer_utils def metadata_writer(model_path="best-fp16.tflite", label_path="labels.txt"): ObjectDetectorWriter = object_detector.MetadataWriter _MODEL_PATH = model_path _LABEL_FILE = label_path _SAVE_TO_PATH = "best-fp16-metadata-v1.tflite" writer = ObjectDetectorWriter.create_for_inference( writer_utils.load_file(_MODEL_PATH), [127.5], [127.5], [_LABEL_FILE]) writer_utils.save_file(writer.populate(), _SAVE_TO_PATH) # Verify the populated metadata and associated files. displayer = metadata.MetadataDisplayer.with_model_file(_SAVE_TO_PATH) print("Metadata populated:") p
关于 tflite 移动端部署中如何为 tflite 模型添加 metadata
战战兢兢59: 老哥，我发现出现了这个问题，在加元数据的过程中。 return packer_type.unpack_from(memoryview_type(buf), head)[0] struct.error: unpack_from requires a buffer of at least 1936025671 bytes for unpacking 4 bytes at offset 1936025667 (actual buffer size is 43)
Deep Splitting and Merging for Table Structure Decomposition 中文翻译（表格结构识别）
qq_comolsy: 您好能分享下icdar2013表格结构识别的数据集吗
ES 如何实现向量搜索【以图搜图/语义搜索】
rocprint0321: 有没有觉得ES做向量检索速度比较慢？要几秒钟

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。