Synthetic Data for Text Localisation in Natural Images是VGG实验室2016年CVPR的一篇论文。
这篇论文所做的主要贡献有两点:
1.将word人工的嵌入到自然图片中,人工生成带有文本的图片(synthText)。
2.提出一种FRCN的网络来检测文本。
本文主要针对第一点贡献进行详细讲解,是如何人工生成数据。
源代码:here
一.输入与输出
我们知道标签数据的获取是昂贵的,但是对于深度学习模型,大量的标签数据又是必须的。这个时候,人工合成符合自然条件的合理的数据是十分有价值的,因此本文的出发点就是因为这个。
1.输入(一张原始的自然图片):
通过Google Image Search获得
2.输出(带有文本的图片,并且知道其文本的具体位置(因为是自己人工生成的)):
其中文本和图片本身并没有任何关系,文本内容,通过20Newsgroups获得