报告主题:揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?
报告日期:7月19日(周二)10:30-11:30
报告要点:
本次报告中我将介绍我与Bengio团队合作的最新工作——视觉字幕恢复(Visual Caption Restoration, VCR)。该任务通过恢复图像中被部分遮挡的文本,挑战现有视觉语言模型(Vision-Language Models, VLM)的高级认知能力。VCR任务要求模型对视觉和文本信息进行精确对齐,并利用图像上下文和像素级字符提示来重建被遮挡的内容。与传统的视觉问答(VQA)和光学字符识别(OCR)任务不同,VCR任务提供明确的标准答案,同时需要模型合理利用多模态信息,展现其推理能力和内部一致性。
我们基于维基百科创建了VCR-wiki数据集用于视觉语言模型的训练和评测。在这一数据集的评测上,许多在VQA和OCR基准测试中表现优异的视觉大模型暴露出难以充分利用图像信息的问题。
此次报告将详细介绍VCR任务的设计理念、数据集构建方法及当前模型在该任务上的表现,并探讨未来在多模态大模型训练和评测中的潜在应用。我们相信,这一任务将为多模态模型的发展提供新的视角,推动更有效的训练和评测方法的研究。
报告嘉宾</