#今日论文推荐# 字节AI Lab提出的新多语言多模态预训练方法刷榜

#今日论文推荐# 字节AI Lab提出的新多语言多模态预训练方法刷榜

当前,多模态预训练工作受限于数据基本只支持英语。而多语言多模态预训练旨在将高资源语言(例如英语)上的多模态能力迁移至低资源语言上。现有的多语言多模态方法虽然提高了低资源语言上的多模态效果,但是,在最近提出的多语言多模态测评榜单 IGLUE 上,这些方法在低资源语言上的效果仍然明显低于“translate-test”的效果,难以用于实际。(“translate-test”即指输入文本翻译到英语,然后使用英语多模态模型测评。)
在这篇文章中,字节跳动 AI Lab Research 团队发现多语言预训练和多模态预训练都是在拉近同一对象的不同表示形式(view),因此提出 Cross-View Language Modeling,通过最大化同一对象的不同表示形式之间的互信息,以统一的方法拉近图像-文本对与平行文本对做多语言多模态预训练。该方法虽然概念相对简单,但是在多种语言下的多模态任务上远超过之前的最佳模型,包括:基于视觉的自然语言推断任务(VNLI)、图像文本检索(image-text retrieval)、视觉问答(VQA)、视觉推理(NLVR)等。

论文题目:Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training
详细解读:https://www.aminer.cn/research_report/630e0c3b7cb68b460f0fa9d5icon-default.png?t=M7J4https://www.aminer.cn/research_report/630e0c3b7cb68b460f0fa9d5
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值