如何生成大批量的可以训练的数据

14 篇文章 3 订阅
8 篇文章 0 订阅

深度学习中,让一个模型能够有更好的泛化能力,最重要的根本就是数据的多样性。但是现实中场景数据复杂多样。以OCR文档识别为例,一方面收集会耗费大量精力(文档图像拍照等等),另一方面,标注过程费时费力,不仅需要标注文本位置,还需要标注其对应的label信息。

 

以下仅为思路参考:

1、有可以大量使用的电子版数据(数据库、文本文档等)

2、利用word模板生成对应的word文档

3、docx格式文档转为pdf文件

4、pdf文件转为图片

5、找出图片中的文本的最小外接矩形

6、外接矩形的整行拼接

7、输出坐标信息到txt文档,完成数据标注与生成

 

给出两个参考的github生成数据:

https://github.com/Sierkinhane/crnn_chinese_characters_rec

https://github.com/Sanster/text_renderer

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值