OCR:使用数据生成工具对自己的文字识别数据进行生成
参考
OCR数据集生成利器—TextRecognitionDataGenerator
文章目录
1. 下载
我们在自己的目标文件夹打开终端cmd,执行下面代码
git clone git@github.com:Belval/TextRecognitionDataGenerator.git
然后我们进入trdg文件夹执行run.py可以进行数据生成
2. 认识自己数据
在这里可以看到自己的数据都是在金属表面进行点刻的字符,包括大写英文以及数字,并且数据居多。
3. 所要生成的数据
根据自己的数据,我们首先要明确两点:生成什么样label的数据,以及图片类型是什么样的?包括图片背景和数据颜色
3.1 生成label
强大的数据生成工具支持我们自己的label,而不用随机生成label。
这这里我自己写了一段代码,用于生成label的txt文件。
在这里我们生成20000个数据标签,其中的格式有
2个字母,11数字
3个字母,6个数字
6个数字
我们各生成7000个
import random,string
import argparse
import os
from tqdm import tqdm
parser = argparse.ArgumentParser(description="随机生成大写字母以及数字")
parser.add_argument(
"--output_dir", type=str, nargs="?", help="The output directory", default="out/"
)
parser.add_argument(
"-n","--number_gener", type=int, nargs="?", help="how many number to gener", default="10"
)
parser