活动报名|揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?...

839279e8bb2ebbd4039ccbca2e657cf9.jpeg

报告主题:揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?

报告日期:7月19日(周二)10:30-11:30

报告要点

本次报告中我将介绍我与Bengio团队合作的最新工作——视觉字幕恢复(Visual Caption Restoration, VCR)。该任务通过恢复图像中被部分遮挡的文本,挑战现有视觉语言模型(Vision-Language Models, VLM)的高级认知能力。VCR任务要求模型对视觉和文本信息进行精确对齐,并利用图像上下文和像素级字符提示来重建被遮挡的内容。与传统的视觉问答(VQA)和光学字符识别(OCR)任务不同,VCR任务提供明确的标准答案,同时需要模型合理利用多模态信息,展现其推理能力和内部一致性。

我们基于维基百科创建了VCR-wiki数据集用于视觉语言模型的训练和评测。在这一数据集的评测上,许多在VQA和OCR基准测试中表现优异的视觉大模型暴露出难以充分利用图像信息的问题。

此次报告将详细介绍VCR任务的设计理念、数据集构建方法及当前模型在该任务上的表现,并探讨未来在多模态大模型训练和评测中的潜在应用。我们相信,这一任务将为多模态模型的发展提供新的视角,推动更有效的训练和评测方法的研究。

报告嘉宾</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值