Synth text 数据集官网下载的主要包含图像文件夹和gt.mat标注文件,共85万(858750)多张图片数据。该数据集中包含了词级别标注、字符级别标注和文本识别内容,可用于文本检测和文本识别模型。
1、mat格式标注文件读取,采用scipy.io中的loadmat函数读取,读到的结果是一个字典。
from scipy.io import loadmat
m = loadmat('gt.mat')
2、Synth text的mat标注数据的keys包括('__header__', '__version__', '__globals__', 'charBB', 'wordBB', 'imnames', 'txt'),关键的标注数据有:
(1)'charBB':字符标注框,绝对坐标,1x858750;
(2) 'wordBB':词标注框,绝对坐标,1x858750;
(3) 'imnames':图片名称,1x858750;
(4) 'txt':文本识别内容,,1x858750。
3、字符和词标注框:以词标注框为例,首先分为两个维度,一个是x坐标,一个是y坐标。这两个维度又分别包含4个维度,这4个维度分别对应左上、右上、右下和左下四个点的坐标。这些维度下包含N个值,这N个值就代表N个字符或词。

4、imnames存放图片名称

5、txt文本识别内容,包含去不的字符和单词,单词的实际个数不是txt的长度,txt可能认为是句子的标注,词需要根据其中的换行符\n进行区分。

Synthtext数据集包含85万多张图像,用于文本检测和识别。其mat标注文件通过scipy.io.loadmat读取,关键数据有字符BB、词BB、图片名称和文本内容。charBB和wordBB提供字符和词的边界框,imnames存储图片名,txt包含识别文本。标注数据结构复杂,适合训练和评估模型。
3142

被折叠的 条评论
为什么被折叠?



