最近做OCR的时候,为了方便,使用代码生成所需要的数据,因此,需要使用多种字体文件,记录下遇到的一些问题:
使用的模型:AttentionOCR
使用的生成器:TextRecognitionDataGenerator
使用python读取.ttf字体文件
# 使用fontTools库
from fontTools.ttLib import TTFont
font = TTFont(font)
# 输出的uniMap是一个字典,key代表的unicode的int值,value代表unicode的名字
uniMap = font['cmap'].tables[0].ttFont.getBestCmap()
关于简繁字体的转换
https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py
https://raw.githubusercontent.com/skydark/nstools/master/zhtools/zh_wiki.py
# 先将上面两个文件放在同一目录下
from langconv import *
def simple2tradition(line):
# 将简体转换成繁体
line = Converter('zh-hant').convert(line)
return line
def tradition2simple(line):
# 将繁体转换成简体
line = Converter('zh-hans').convert(line)
return line
lines = []</