数据合成方法 : 论文 Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

Synthetic Data and Artificial Neural Networks for Natural Scene Text  Recognition中的数据合成方法

论文全文:https://arxiv.org/pdf/1406.2227.pdf

 

第二部分合成数据:

由于论文中的CNN模型将整个单词图像作为输入而不是单个字符图像,因此必须有一个有剪裁单词图像的训练数据集。虽然ICDAR ,街景文本(SVT)数据集等公开的数据集可用,但数据量过少。

因此,我们遵循一些合成字符数据集[4 de T. Campos, B. R. Babu, and M. Varma. Character recognition in natural images.    27.End-to-end text recognition with convolutional neural networks]的成功,并创建一个合成字符数据生成器,能够模拟场景中文本图像的分布。这是一个合理的方法。

上图说明了生成过程和一些得到的合成数据样本。这些样本由三个单独的图像层组成 - 背景图像层,前景图像层和可选的边界/阴影图像层——它们都是具有alpha通道的图像的形式。合成数据生成过程如下:

  1. 字体渲染——从Google字体下载的1400多种字体的目录中随机选择字体。字距,重量,下划线和其他属性从定义的分布中随机选择。该单词水平或者遵循一定曲线规律渲染到前景图像层的Alpha通道。
  2. 边框/阴影渲染——从字体渲染中插入随机宽度的边框,外边框或阴影。
  3. 基础着色——三个图层中(前景、字体、边框/阴影三个图层)的每一个都通过来自于真实图像采样聚类得到的不同的均匀颜色,
  4. 填充有从自然图像上采样的不同的均匀颜色。通过k-means将训练数据集的每个图像的三个颜色分量聚类。 [聚类填充颜色]
  5. 透视变换——前景和边界/阴影图层随机旋转,投影变换,模拟3D世界。[透视变换]
  6. 自然数据融合——每个图像层与来自ICDAR 2003和SVT的训练数据集的随机采样的图像融合。融合和α融合模式()由随机过程决定,这产生了合理的纹理和组合。三个图像层也以随机方式融合在一起,得到单个输出图像。[组合纹理和颜色特征]
  7. 噪声——高斯噪声模糊,图像压缩随机加入到图像中。

生成的单词样本具有32像素的固定高度,宽度可变。由于CNN的输入是固定大小的图像,因此将生成的图像resize为宽度为100像素的图像。虽然这不保留纵横比,但图像特征的水平频率失真最有可能提供字长提示。我们还尝试了不同的填充方式以保持纵横比,但发现结果不如resize那么好。

 

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值