#今日论文推荐# 字节AI Lab提出的新多语言多模态预训练方法刷榜

最新推荐文章于 2024-10-01 20:17:55 发布

wwwsxn

最新推荐文章于 2024-10-01 20:17:55 发布

阅读量183

点赞数

分类专栏： AI 文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/630e0c3b7cb68b460f0fa9d5

版权

AI 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

#今日论文推荐# 字节AI Lab提出的新多语言多模态预训练方法刷榜

当前，多模态预训练工作受限于数据基本只支持英语。而多语言多模态预训练旨在将高资源语言（例如英语）上的多模态能力迁移至低资源语言上。现有的多语言多模态方法虽然提高了低资源语言上的多模态效果，但是，在最近提出的多语言多模态测评榜单 IGLUE 上，这些方法在低资源语言上的效果仍然明显低于“translate-test”的效果，难以用于实际。（“translate-test”即指输入文本翻译到英语，然后使用英语多模态模型测评。）
在这篇文章中，字节跳动 AI Lab Research 团队发现多语言预训练和多模态预训练都是在拉近同一对象的不同表示形式（view），因此提出 Cross-View Language Modeling，通过最大化同一对象的不同表示形式之间的互信息，以统一的方法拉近图像-文本对与平行文本对做多语言多模态预训练。该方法虽然概念相对简单，但是在多种语言下的多模态任务上远超过之前的最佳模型，包括：基于视觉的自然语言推断任务（VNLI）、图像文本检索（image-text retrieval）、视觉问答（VQA）、视觉推理（NLVR）等。

论文题目：Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training
详细解读：https://www.aminer.cn/research_report/630e0c3b7cb68b460f0fa9d5https://www.aminer.cn/research_report/630e0c3b7cb68b460f0fa9d5
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。