深度学习中,让一个模型能够有更好的泛化能力,最重要的根本就是数据的多样性。但是现实中场景数据复杂多样。以OCR文档识别为例,一方面收集会耗费大量精力(文档图像拍照等等),另一方面,标注过程费时费力,不仅需要标注文本位置,还需要标注其对应的label信息。
以下仅为思路参考:
1、有可以大量使用的电子版数据(数据库、文本文档等)
2、利用word模板生成对应的word文档
3、docx格式文档转为pdf文件
4、pdf文件转为图片
5、找出图片中的文本的最小外接矩形
6、外接矩形的整行拼接
7、输出坐标信息到txt文档,完成数据标注与生成
给出两个参考的github生成数据: