ICDAR 2019比赛及数据集下载
https://rrc.cvc.uab.es/?ch=11&com=tasks
任务-ICDAR 2019场景文本视觉问答中的稳健阅读挑战
挑战包含三个任务,它们都是2019年竞赛的新任务:
- 高度上下文相关,每个图像都有一个字典,其中包含出现在针对该图像问题定义的答案中的单词以及一系列干扰因素。
- 弱上下文化,参与者将拥有一个针对所有数据集图像的30,000个单词的独特词典,该词典是通过收集所有地面真实单词加干扰因子而形成的。
- 端到端,其中未给出可能的答案的预定义列表,并且必须通过以下方式自动生成正确的答案:处理图像上下文,阅读和理解图像中的文本信息。
数据集和工具
SceneText-VQA数据集包含23,000张图像,每个图像最多包含三个问题/答案对。提供了火车和试车。训练集由19000张图像和26000个问题组成,而测试集由3000张图像和每个任务4000个问题组成。图1给出了预期的问题和答案类型的示例。
图1. 此图像可能的问题/答案对可能是:
(Q)图像底部出现了哪个苏打水品牌?(A)可口可乐。
除了数据集,我们还提供了一组实用程序功能和脚本,用于通过RRC在线平台评估和可视化提交的结果,以及可以脱机使用的独立代码和实用程序(后者在比赛后提供)已完成)。
任务1-紧密关联
在第一个任务中,将为参与者提供每个图像的可能答案的不同列表。该列表将包含图像中出现的一些单词,以及一些额外的词典单词。这样,每个图像将包含相对较小但不同的可能答案集。对于上面的示例图像,将为参与者提供一个列表,其中包括以下单词以及一些词典单词:
[公众,市场,中心,可口可乐,农民,享受……]
任务2-弱关联
在此任务中,将为参与者提供完整数据集的可能答案的完整列表,并补充一些词典单词。尽管对于数据集中的所有图像,可能答案的列表将是相同的(静态列表),但是该列表比上一个任务的答案集要大得多。该词典由30,000个单词组成,这些单词是通过收集所有22k个地面真实单词加上8k个生成的词汇形成的。
任务3-打开字典
端到端任务是最通用且最具挑战性的任务,因为事先没有提供任何答案。通过分析图像的视觉环境以及阅读和理解所有图像所包含的文字信息,提交的用于此任务的方法应该能够生成正确的答案。
评估指标
在所有这三个任务中,评估指标将是平均标准化Levenshtein相似度(ANLS)。ANLS可以顺利捕获OCR错误,并在预期的正确回答的情况下进行了轻微的惩罚,但识别度很差。它还使用值0.5的阈值,该阈值指示如果度量的值等于或大于0.5或0,则度量的输出将是ANLS。此阈值的关键是确定答案是否已正确选择但未正确识别&