数据集下载 - ICDAR 2019多语言场景文本检测和识别的强大阅读挑战

这篇博客介绍了ICDAR 2019多语言场景文本检测和识别挑战的数据集下载及任务详情。包括四个任务:多脚本文本检测、裁剪的Word脚本标识、联合文本检测和脚本识别以及端到端文本检测和识别。每个任务提供了训练集和测试集的下载链接,并详细说明了数据格式、评估标准和常见问题。
摘要由CSDN通过智能技术生成

数据集下载 - ICDAR 2019多语言场景文本检测和识别的强大阅读挑战

在训练数据集下方下载每个任务的相关基础事实。

您可能还想阅读本页末尾的“常见问题解答”部分。

任务1:多脚本文本检测

训练集:

训练集由10,000个图像组成,可以从以下2个链接下载:

TrainSetImagesTask1_Part1  (3.5G)

TrainSetImagesTask1_Part2  (3.3G)

基本事实由10,000个文本文件(对应于图像)组成,具有文字级本地化,脚本和转录,可以从以下链接下载:

TrainSetGT(6.5M)

请注意,此任务仅需要本地化结果(如任务页面中的结果格式所示),但基本事实还提供每个边界框和转录的脚本ID。任务3和4中将需要此额外信息。

有关培训集的额外信息(对于专注于一种或几种语言的研究人员而言,可能非常有用,而不是所有的多语言集合):

10,000个图像在训练集中排序,使得:每个连续的1000个图像包含一种主要语言的文本(当然它可以包含来自1种或2种其他语言的附加文本,全部来自10种语言的集合)
00001 - 01000 :Arabic 
01001 - 02000:English 
02001 - 03000:French 
03001 - 04000:Chinese 
04001 - 05000:German 
05001 - 06000:Korean 
06001 - 07000:Japanese 
07001 - 08000:Italian 
08001 - 09000:Bangla 
09001 - 10000:Hindi

测试集: 

图像(10,000张图像):

MLT19_TestImagesPart1.zip

MLT19_TestImagesPart2.zip

任务2:裁剪的Word脚本标识

训练集:

Word_Images_Part1  (单词图像[2个文件]的基本事实也在这里[与图像在同一个文件夹中])

Word_Images_Part2

Word_Images_Part3

测试集: 

裁剪的文字图片:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值