数据集下载 - ICDAR 2019多语言场景文本检测和识别的强大阅读挑战

最新推荐文章于 2024-04-11 20:42:10 发布

qq_41895190

最新推荐文章于 2024-04-11 20:42:10 发布

阅读量5.5k

点赞数 1

分类专栏：深度学习文章标签：数据集下载 - ICDAR 2019 多语言场景文本检测和识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41895190/article/details/91951306

版权

这篇博客介绍了ICDAR 2019多语言场景文本检测和识别挑战的数据集下载及任务详情。包括四个任务：多脚本文本检测、裁剪的Word脚本标识、联合文本检测和脚本识别以及端到端文本检测和识别。每个任务提供了训练集和测试集的下载链接，并详细说明了数据格式、评估标准和常见问题。

摘要由CSDN通过智能技术生成

数据集下载 - ICDAR 2019多语言场景文本检测和识别的强大阅读挑战

在训练数据集下方下载每个任务的相关基础事实。

您可能还想阅读本页末尾的“常见问题解答”部分。

任务1：多脚本文本检测

训练集：

训练集由10,000个图像组成，可以从以下2个链接下载：

TrainSetImagesTask1_Part1 （3.5G）

TrainSetImagesTask1_Part2 （3.3G）

基本事实由10,000个文本文件（对应于图像）组成，具有文字级本地化，脚本和转录，可以从以下链接下载：

TrainSetGT（6.5M）

请注意，此任务仅需要本地化结果（如任务页面中的结果格式所示），但基本事实还提供每个边界框和转录的脚本ID。任务3和4中将需要此额外信息。

有关培训集的额外信息（对于专注于一种或几种语言的研究人员而言，可能非常有用，而不是所有的多语言集合）：

10,000个图像在训练集中排序，使得：每个连续的1000个图像包含一种主要语言的文本（当然它可以包含来自1种或2种其他语言的附加文本，全部来自10种语言的集合）
00001 - 01000 ：Arabic
01001 - 02000：English
02001 - 03000：French
03001 - 04000：Chinese
04001 - 05000：German
05001 - 06000：Korean
06001 - 07000：Japanese
07001 - 08000：Italian
08001 - 09000：Bangla
09001 - 10000：Hindi

测试集：

图像（10,000张图像）：

MLT19_TestImagesPart1.zip

MLT19_TestImagesPart2.zip

任务2：裁剪的Word脚本标识

训练集：

Word_Images_Part1 （单词图像[2个文件]的基本事实也在这里[与图像在同一个文件夹中]）

Word_Images_Part2

Word_Images_Part3

测试集：

裁剪的文字图片：

最低0.47元/天解锁文章

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。