数据合成方法：论文 Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

最新推荐文章于 2024-07-11 15:37:58 发布

象驮着的云

最新推荐文章于 2024-07-11 15:37:58 发布

阅读量1.9k

点赞数

分类专栏：数据增强文章标签：文本合成数据增强

本文链接：https://blog.csdn.net/weixin_37552816/article/details/90646529

版权

数据增强专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition中的数据合成方法

论文全文：https://arxiv.org/pdf/1406.2227.pdf

第二部分合成数据：

由于论文中的CNN模型将整个单词图像作为输入而不是单个字符图像，因此必须有一个有剪裁单词图像的训练数据集。虽然ICDAR ，街景文本（SVT）数据集等公开的数据集可用，但数据量过少。

因此，我们遵循一些合成字符数据集[4 de T. Campos, B. R. Babu, and M. Varma. Character recognition in natural images. 27.End-to-end text recognition with convolutional neural networks]的成功，并创建一个合成字符数据生成器，能够模拟场景中文本图像的分布。这是一个合理的方法。

上图说明了生成过程和一些得到的合成数据样本。这些样本由三个单独的图像层组成 - 背景图像层，前景图像层和可选的边界/阴影图像层——它们都是具有alpha通道的图像的形式。合成数据生成过程如下：

字体渲染——从Google字体下载的1400多种字体的目录中随机选择字体。字距，重量，下划线和其他属性从定义的分布中随机选择。该单词水平或者遵循一定曲线规律渲染到前景图像层的Alpha通道。
边框/阴影渲染——从字体渲染中插入随机宽度的边框，外边框或阴影。
基础着色——三个图层中（前景、字体、边框/阴影三个图层）的每一个都通过来自于真实图像采样聚类得到的不同的均匀颜色，
填充有从自然图像上采样的不同的均匀颜色。通过k-means将训练数据集的每个图像的三个颜色分量聚类。 [聚类填充颜色]
透视变换——前景和边界/阴影图层随机旋转，投影变换，模拟3D世界。[透视变换]
自然数据融合——每个图像层与来自ICDAR 2003和SVT的训练数据集的随机采样的图像融合。融合和α融合模式（）由随机过程决定，这产生了合理的纹理和组合。三个图像层也以随机方式融合在一起，得到单个输出图像。[组合纹理和颜色特征]
噪声——高斯噪声模糊，图像压缩随机加入到图像中。

生成的单词样本具有32像素的固定高度，宽度可变。由于CNN的输入是固定大小的图像，因此将生成的图像resize为宽度为100像素的图像。虽然这不保留纵横比，但图像特征的水平频率失真最有可能提供字长提示。我们还尝试了不同的填充方式以保持纵横比，但发现结果不如resize那么好。

象驮着的云

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据合成方法：论文 Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition中的数据合成方法论文全文：https://arxiv.org/pdf/1406.2227.pdf第二部分合成数据：由于论文中的CNN模型将整个单词图像作为输入而不是单个字符图像，因此必须有一个有剪裁单词图像的训练数据集。...
复制链接

扫一扫