AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练

cd48f3ce74ada807567bc77d7f6347e0.gif

©PaperWeekly 原创 · 作者 | 龙宇星

单位 | 北京邮电大学

0cbd271522c41ed7f4bb29e7f1de0cb8.png

引言

在复杂场景中,简单的指代描述(如“黑色夹克”)常常会造成相似物品间的歧义,此时我们倾向于使用详细的视觉属性和涉及背景物体的相对方位关系(如“最左边落地衣架上有竖直条纹的黑色夹克”)来无歧义地指代场景中的具体物品。

6e237bb90bfc9415d13bca578e65f25d.png

当构建复杂场景的多模态对话助理时,我们希望它们也能够在回复中清晰准确地指代物品,这对于多模态对话助理的视觉属性理解能力,相对方位关系多跳推理能力,以及视觉属性与方位关系对齐能力都提出了很高的要求。现有多模态对话助理都没有提出有针对性的解决方案,它们只是简单地将物品视觉属性作为文本输入或将编码后的物品边界框与视觉属性拼接作为图像输入,这使得它们生成响应中物品指代十分模糊,无法准确描述视觉属性和涉及多跳的相对位置关系。

为了解决这一问题,我们提出了递增布局图(Incremental Layout Graph)和多模态问答(Multimodal Question Answering)预训练任务。我们从对话历史中抽取物品的视觉属性和方位信息来生成每一张场景图像对应的布局图,这些布局图以物品信息为节点,方位关系为边,可随新信息的加入而不断扩增。凭借递增布局图和自然语言模板即可无需人工标注,快速生成大量不同类型的多模态问答对(Question Answering Pair)用于多模态问答预训练。

我们把经过预训练得到多模态对话助理称为 SPRING,在具有代表性的复杂购物场景多模态对话数据集 SIMMC 2.0 和 SIMMC 1.0 响应生成任务,SPRING 在所有评价指标上都大幅度超过现有表现最佳的模型。

086060f18e4ea1169a2e3680915c4143.png

论文题目:

SPRING: Situated Conversational Agent Pretrained with Multimodal Questions from Incremental Layout Graph

论文链接:

https://arxiv.org/abs/2301.01949

代码链接:

https://github.com/LYX0501/SPRING

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值