活动报名|揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?...

839279e8bb2ebbd4039ccbca2e657cf9.jpeg

报告主题:揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?

报告日期:7月19日(周二)10:30-11:30

报告要点

本次报告中我将介绍我与Bengio团队合作的最新工作——视觉字幕恢复(Visual Caption Restoration, VCR)。该任务通过恢复图像中被部分遮挡的文本,挑战现有视觉语言模型(Vision-Language Models, VLM)的高级认知能力。VCR任务要求模型对视觉和文本信息进行精确对齐,并利用图像上下文和像素级字符提示来重建被遮挡的内容。与传统的视觉问答(VQA)和光学字符识别(OCR)任务不同,VCR任务提供明确的标准答案,同时需要模型合理利用多模态信息,展现其推理能力和内部一致性。

我们基于维基百科创建了VCR-wiki数据集用于视觉语言模型的训练和评测。在这一数据集的评测上,许多在VQA和OCR基准测试中表现优异的视觉大模型暴露出难以充分利用图像信息的问题。

此次报告将详细介绍VCR任务的设计理念、数据集构建方法及当前模型在该任务上的表现,并探讨未来在多模态大模型训练和评测中的潜在应用。我们相信,这一任务将为多模态模型的发展提供新的视角,推动更有效的训练和评测方法的研究。

报告嘉宾

王苏羽晨是蒙特利尔大学及Mila-魁北克人工智能研究所的四年级博士生,导师是刘邦助理教授。他于2020年毕业于北京航空航天大学高等理工学院(沈元荣誉学院)计算机专业。

他的研究主要集中在长文本语言模型、多模态大模型和知识图谱。他在ACL、EMNLP和The Web Conference(WWW)等著名会议上发表了多篇论文。此外,他还担任了ACL、EMNLP和NAACL等顶级自然语言处理和机器学习会议的审稿人。

3c50fc2b1193313104d6802524ffcd74.png

扫码报名


近期热门报告

50c7c3ccb1ff8e3b20843f79d28ce86d.jpegb7699b8541759305e289c6ee78524088.png

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值