#今日论文推荐# 从50亿图文中提取中文跨模态新基准Zero，奇虎360全新预训练框架超越多项SOTA

最新推荐文章于 2024-10-01 20:17:55 发布

wwwsxn

最新推荐文章于 2024-10-01 20:17:55 发布

阅读量125

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/62a2af267cb68b460fcecdcc?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 从50亿图文中提取中文跨模态新基准Zero，奇虎360全新预训练框架超越多项SOTA

对于中文社区来说，本文提出的大规模跨模态基准数据集无疑很有价值
视觉语言预训练（VLP）主要学习视觉与自然语言之间的语义对应关系。得益于海量数据、Transformer 等优秀架构、CLIP 等跨模态模型以及硬件设备的支持，一系列开创性的工作探索了 VLP 模型，并在各种视觉语言任务上取得了显著进展。
借助大规模训练语料库（主要是英语），众多 VLP 模型已被证明对下游任务有益。然而中文视觉语言数据集很少，并且存在各种局限性。针对大规模预训练模型加下游任务精调的经典模式，中文跨模态领域缺少一个包含大量优质数据，且完整定义了预训练数据集、多个下游任务训练集及下游任务测试集的数据基准。
如何构建一个完整、公平且具有高质量文本描述的中文跨模态基准成为一个亟需解决的问题。
最近，奇虎 360 人工智能研究院和清华大学的研究者在其最新论文中重点关注了大规模视觉语言数据集和跨模态表征学习模型。研究者提出了一个大规模中文跨模态基准数据集 Zero，它包含了两个被称为 Zero-Corpus 的预训练数据集和五个下游任务数据集，一定程度上填补了中文图文跨模态领域数据集的空白。进一步，研究者们还提出了一个视觉语言预训练框架 R2D2，用于大规模跨模态学习，基于所提出的 Zero-Corpus 数据集进行预训练，并在多个下游任务上进行测试，R2D2 取得了多项超越 SOTA 的结果。上述数据集和模型，均已开源。
研究者还尝试用更大的 2.5 亿内部数据集训练 R2D2 模型，相对 2300 万数据，模型效果依然有显著提升。特别是在零样本任务上，相对此前的 SOTA，在 Flickr30k-CN 数据集上，R@M 提升到 85.6%（提升了 4.7%），在 COCO-CN 数据集上，R@M 提升到 80.5%（提升了 5.4%），在 MUGE 数据集上，R@M 提升到 69.5%（提升了 6.3%）。

论文题目：Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework
详细解读：https://www.aminer.cn/research_report/62a2af267cb68b460fcecdcc?download=falsehttps://www.aminer.cn/research_report/62a2af267cb68b460fcecdcc?download=false
AMiner链接：https://www.aminer.cn/?f=cs