前面用做Tesseract做文字识别的时候,一般网上教程称使用jTessBoxEditor训练(最终我试验发现对于中文的图片文字识别而言训练基本没什么卵用)
当然使用jTessBoxEditor训练新的文字还是可以的,当时我发现jTessBoxEditor训练基本的配置文件基本是文字以及文字的坐标于是我使用python脚本生成了对应的训练图片以及配置文件。先上个图:
yahei_font2.box配置文件box的内容如下:
生成的配置文件如下:
下面贴出python代码,大致原理大家看下代码跑一下一个没什么问题:
# -*- coding: utf-8 -*-
from PIL import Image
from PIL import ImageFont
from PIL import ImageDraw
import os
CREATE_PATH = 'F:/img_test/create_train_image/'
WIDTH = 700
HEIGHT = 900
# 正常字体的大小
# FONT_SIZE = 40
# FONT_SIZE = 16
# FONT_SIZE = 20
FONT_SIZE = 25
FONT_SIZE = 36
FONT_SIZE = 45
# 空格的大小,换行的时候也是要大小的不然,两行的距离太紧
FONT_BLANK_SIZE = 10
BEG_POINT = 5
BLACK_COLOR = 0 + 0 * 256 + 0 * 256 * 256
FONT_TYPE = 'C:\Windows\Fonts\FZSTK.TTF' # 方正舒体
# FONT_TYPE = 'C:\Windows\Fonts\simsun.ttc' # 常规简体 done 16 25
# FONT_TYPE = 'C:\Windows\Fonts\simhei.TTF' # heiti done 16 25
FONT_TYPE = 'C:\Windows\Fonts\STHUPO.TTF' # 实心黑粗体 字体太大不好看有些字显示不正常
FONT_TYPE = 'C:\Windows\Fonts\simkai.TTF' # 楷体 常规 done 16 25
FONT_TYPE = 'C:\Windows\Fonts\simfang.TTF' # 仿宋 常规 常规 done