Synthtext 数据集

Synthtext数据集包含85万多张图像,用于文本检测和识别。其mat标注文件通过scipy.io.loadmat读取,关键数据有字符BB、词BB、图片名称和文本内容。charBB和wordBB提供字符和词的边界框,imnames存储图片名,txt包含识别文本。标注数据结构复杂,适合训练和评估模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Synth text 数据集官网下载的主要包含图像文件夹和gt.mat标注文件,共85万(858750)多张图片数据。该数据集中包含了词级别标注、字符级别标注和文本识别内容,可用于文本检测和文本识别模型。

1、mat格式标注文件读取,采用scipy.io中的loadmat函数读取,读到的结果是一个字典。

from scipy.io import loadmat
m = loadmat('gt.mat')

2、Synth text的mat标注数据的keys包括('__header__', '__version__', '__globals__', 'charBB', 'wordBB', 'imnames', 'txt'),关键的标注数据有:

(1)'charBB':字符标注框,绝对坐标,1x858750;

(2) 'wordBB':词标注框,绝对坐标,1x858750;

(3) 'imnames':图片名称,1x858750;

(4) 'txt':文本识别内容,,1x858750。

3、字符和词标注框:以词标注框为例,首先分为两个维度,一个是x坐标,一个是y坐标。这两个维度又分别包含4个维度,这4个维度分别对应左上、右上、右下和左下四个点的坐标。这些维度下包含N个值,这N个值就代表N个字符或词。

4、imnames存放图片名称

 5、txt文本识别内容,包含去不的字符和单词,单词的实际个数不是txt的长度,txt可能认为是句子的标注,词需要根据其中的换行符\n进行区分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Coding的叶子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值