解读亚马逊云科技语义搜图检索方案

 图像检索(包括文搜图和图搜图)是各个行业中常见的一个应用场景。比如在电商场景中,基于以图搜图做相似商品查找;在云相册场景中,基于文搜图来找寻所需的图像素材。

 传统基于标签的图像检索方式,即先使用目标检测/图像分类产品(如亚马逊云科技Amazon Rekognation)产生图片标签,再存储标签并在检索时匹配标签,存在一些局限性。第一是该方法受限于产品本身支持的标签数量,比如Amazon Rekognation支持3000个左右的标签,对于标签之外的目标无法检测并检索。第二是标签检索对动词、数量、方位等信息不敏感。诸如“两个孩子在一栋房子前面奔跑”,会出现包含“孩子,房子”标签的图像,但容易忽略“两个,前面,奔跑”等信息。

 下文将将介绍两种基于语义的搜图检索方式以及部署方案,可以实际测试两种方式在特定应用场景下的搜索率以及搜索的准确性,并选择更加适合的方案使用。

 方案一:利用CLIP模型的文本编码器和图像编码器,将图像和文本放入同一维度的潜在向量空间中,找到与文本向量最相近的图像向量以实现基于语义的图像搜索。如下图所示,可以看到图像对应的Image embedding在向量空间的位置,不同文本会同样被编码至向量空间中,当图像和文字语义最相近时,其Image embedding和Text embedding的余弦距离最近。

 方案二:利用图生文模型(案例使用vit-gpt2-image-capti

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 是的,以图搜文和以文搜图都是多模态信息检索,即结合了多种不同的信息模态来进行信息检索。其中,以图搜文使用图像作为查询输入,以文本作为返回结果;以文搜图则相反,使用文本作为查询输入,以图像作为返回结果。这种多模态的信息检索方式可以更加全面、准确地满足用户的信息需求。 ### 回答2: 以图搜文和以文搜图都可以被视为多模态信息检索的一种形式。多模态信息检索是指从多个媒体模态中检索相关信息的过程。在以图搜文中,用户通过提供一张图片来检索与图片相关的文本信息。系统会根据图片的内容特征,比如颜色、纹理、形状等,找到与之相似的文本信息。这样的检索方式可以应用于图片搜索引擎、图书馆信息检索等领域。 而以文搜图则是用户通过输入一段文字来检索相关的图片信息。系统会根据文字的关键词、语义等特征来寻找与之相关的图片。这在广告推荐、商品搜索等场景中很常见。用户可以通过输入商品的名称、描述等信息来寻找与之相关的图片。 总之,无论是以图搜文还是以文搜图,都涉及到从一种模态(图像或文本)向另一种模态(文本或图像)的信息转换或匹配。因此,这两种检索方式都可以被视为多模态信息检索的一种形式。 ### 回答3: 以图搜文和以文搜图都属于多模态信息检索。 多模态信息检索是指通过多种模态的输入数据(如文本、图像、音频等)进行信息检索的技术。以图搜文是指通过输入一张图片,系统能够理解图片的内容并返回相关的文本信息;以文搜图是指通过输入一段文本,系统能够理解文本的含义并返回相关的图片信息。 这两种方法都涉及到不同模态数据之间的关联和相互转换。以图搜文通过图像识别和理解技术将图片转化为文本,然后使用文本检索的方法进行检索;以文搜图则是通过文本理解和语义分析技术将文本转化为图像的相关特征,然后使用图像检索的方法进行检索。 多模态信息检索技术将不同模态之间的信息融合起来,能够提供更丰富、多样化的检索结果,同时也能够满足用户在特定场景下对于不同模态呈现方式的需求。无论是以图搜文还是以文搜图,都属于多模态信息检索的范畴。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值