提前报名｜Google DeepMind下一代图像检索模型MagicLens

智源社区

于 2024-04-30 12:30:28 发布

阅读量148

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247543258&idx=1&sn=769839c4527730f7af3198bd18bf2ca9&chksm=ffa638c198c382dec0a40c6a44b46a3e9d57690f61e6127ee406244f014184c884bac7093d5c&scene=126&sessionid=0

版权

GoogleDeepMind的MagicLens模型在5月8日的报告中展示了其在理解开放指令和多样化的图像关系方面的突破，比现有SOTA在多种任务中表现更优且参数量少。该模型适用于复杂搜索意图，显示了在真实世界应用中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

报告主题：Google DeepMind下一代图像检索模型MagicLens

报告日期：5月8日（周二）10:30-11:30

报告要点：

我们认为近20年来的图像检索问题(图像->图像)定义并不明确：用户上传图片搜索的时候被迫只能有一个搜索意图"找到一样的图片"。事实上用户可能对于一张图片有不同的搜索意图：比如，这个景点周围的景点，这个建筑内部长什么样？因此，相比于传统的仅根据图片本身的相似度检索，让模型理解开放指令表达的多样化搜索意图和图片关系可以支持更精准的图像检索。为了挖掘多样化的图像关系，我们使用同一网页中自然共现的图像对作为自监督型号，并使用大模型（PALI/PaLM）生成开放式的搜索指令。主页：https://open-vision-language.github.io/MagicLens/

1) 在3670万数据上训练后，MagicLens模型可以在10个多模态->图像, 图像->图像, 以及文本->图像检索任务中都取得了和之前SOTA相当甚至更好的性能。

2) 在多个数据集上，MagicLens模型强于之前SOTA，但是仅有其不足五十分之一的参数量。

3) 我们在140万大小的图像检索池上进行人工评估和分析，发现MagicLens 可以满足复杂的甚至超越视觉的搜索意图。

报告嘉宾：

张凯，论文一作，他是俄亥俄州立大学二年级计算机博士生，导师为苏煜教授。他对自然语言处理和多模态的真实世界应用有着广泛的兴趣。主页：https://drogozhang.github.io

扫码报名

近期热门报告

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。