解读亚马逊云科技语义搜图检索方案

最新推荐文章于 2025-05-01 11:41:26 发布

前沿商业

最新推荐文章于 2025-05-01 11:41:26 发布

阅读量1.5k

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76768294/article/details/132563271

版权

本文介绍了亚马逊云科技的两种语义搜图检索方案：基于CLIP模型和图生文模型（vit-gpt2-image-captioning）。传统标签检索存在局限，而语义检索能更准确地匹配图像。文章详细阐述了CLIP模型和图生文模型的工作原理，并提及Amazon OpenSearch在k-NN搜索中的作用，强调了方案的灵活性和可扩展性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图像检索（包括文搜图和图搜图）是各个行业中常见的一个应用场景。比如在电商场景中，基于以图搜图做相似商品查找；在云相册场景中，基于文搜图来找寻所需的图像素材。

传统基于标签的图像检索方式，即先使用目标检测/图像分类产品（如亚马逊云科技Amazon Rekognation）产生图片标签，再存储标签并在检索时匹配标签，存在一些局限性。第一是该方法受限于产品本身支持的标签数量，比如Amazon Rekognation支持3000个左右的标签，对于标签之外的目标无法检测并检索。第二是标签检索对动词、数量、方位等信息不敏感。诸如“两个孩子在一栋房子前面奔跑”，会出现包含“孩子，房子”标签的图像，但容易忽略“两个，前面，奔跑”等信息。

下文将将介绍两种基于语义的搜图检索方式以及部署方案，可以实际测试两种方式在特定应用场景下的搜索率以及搜索的准确性，并选择更加适合的方案使用。

方案一：利用CLIP模型的文本编码器和图像编码器，将图像和文本放入同一维度的潜在向量空间中，找到与文本向量最相近的图像向量以实现基于语义的图像搜索。如下图所示，可以看到图像对应的Image embedding在向量空间的位置，不同文本会同样被编码至向量空间中，当图像和文字语义最相近时，其Image embedding和Text embedding的余弦距离最近。

方案二：利用图生文模型（案例使用vit-gpt2-image-captio

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。