#今日论文推荐# ICML 2022 | 字节跳动 AI Lab 提出多模态模型：X-VLM，学习视觉和语言的多粒度对齐

最新推荐文章于 2024-08-16 09:44:07 发布

wwwsxn

最新推荐文章于 2024-08-16 09:44:07 发布

阅读量304

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/62abe9c67cb68b460fd47f7b?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

字节跳动AILab在ICML2022上提出的X-VLM模型，通过学习多粒度的视觉和语言对齐，实现了在较小模型规模和数据量下，于多个视觉语言任务上的出色表现。该模型已应用于今日头条，改善视障用户的图片阅读体验，并在真实场景中超越多个业界标准模型。

摘要由CSDN通过智能技术生成

#今日论文推荐# ICML 2022 | 字节跳动 AI Lab 提出多模态模型：X-VLM，学习视觉和语言的多粒度对齐

视觉语言预训练提高了许多下游视觉语言任务的性能，例如：图文检索、基于图片的问答或推理。有朋友要问了，除了在公开的学术任务上使用更大的模型/更多的数据/技巧把指标刷得很高，多模态预训练模型有什么实际应用呢？
为此，字节跳动 AI Lab Research 团队提出了X-VLM，首次提出学习多粒度的视觉和语言对齐。实验证明，这种预训练方法十分高效，模型规模无需很大，预训练数据无需很多，仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现，例如：图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成。目前，X-VLM 在字节跳动的真实应用场景上超过了业界常用的多个模型，完成了上线，服务于如今日头条等业务。相关论文已被ICML 2022接收。

比如，X-VLM 学到了多粒度的视觉和语言对齐，能为图片生成更正确的描述物体和物体间关系的句子，这项能力被应用到了字节跳动的公益项目上。有视觉障碍的赵先生常用今日头条了解时事新闻，他一直有个期待：“希望和普通人一样‘看’到全部资讯内容。” 今日头条上超过三分之二的资讯内容带有图片，为了解决视障人士的读图难题，今日头条App最近应用了 X-VLM 的生成能力，可以自动识别图片并为它们配上描述。

论文题目：Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
详细解读：https://www.aminer.cn/research_report/62abe9c67cb68b460fd47f7b?download=falsehttps://www.aminer.cn/research_report/62abe9c67cb68b460fd47f7b?download=false
AMiner链接：https://www.aminer.cn/?f=cs