YOLOv5 + CLIP = 搜图 + 裁剪

文章来源  机器之心  编辑:蛋酱

给 Crop-CLIP 一个口令,就能自动搜图,还能帮忙裁剪出图片中的关键部分。

经常找图的人都知道,根据检索关键词组寻找理想中的照片是件很麻烦的事情。

打开搜索引擎或无版权图片网站,输入关键词,如果幸运的话,可能会在第一页或前 N 个检索结果中找到想要的图像。这种搜索方式仍然是基于图片标签进行的。

自从 2021 年 1 月,OpenAI 推出了名为 CLIP 的神经网络,找图就进入了语义搜索时代。CLIP 建立在零样本迁移、自然语言监督、多模态学习的大量工作基础之上,因此它可以从自然语言监督中有效地学习视觉概念。

语义搜索不会试图为输入短语中的单词找到精确匹配,而是捕获上下文和单词之间的更广泛的关系,然后检索与搜索查询的上下文密切相关的结果。

近日,一位开发者将 YOLOv5 和 CLIP 结合起来,在使用关键词检索图片内容的同时,直接精确裁剪出包含检索主题的那一部分。

0fa616690bd66463e5c0a2c979772406.png

在这张图中,检索的关键词是「Whats the time」。

  • 项目地址:https://github.com/vijishmadhavan/Crop-CLIP

  • 在线试用地址:https://huggingface.co/spaces/Vijish/Crop-CLIP

先看几个示例,比如你输入关键词「卫衣男」,效果如下图:

1039993763cb7e699b95cba32ebd29e7.png

关键词「威士忌酒瓶」:

14976a8be77fae712a55cadd8124ae22.png

输入关键词「计算机」,就不会包含水杯和耳机:

f407e7489ff05467da4034f742b2f89d.png

惊喜的是,它也能认出「Jeff Dean」:

7a9022be62b6ee5cdf8771db8c577e57.png

怎么实现的?

CLIP 是用大量带有对应标题的图像进行训练的,因此它学会了理解哪个标题与哪个图片相匹配。

用户可以给出一个随机图像,并在向量空间中找到该图像的余弦相似度,其中包含两个短语向量:「这是狗的照片吗?」、「这是猫的照片吗?」。模型会查看哪一个具有最高的相似度,然后找到图像的类别。某种程度上说,CLIP 具有像 GPT-2 和 GPT-3 一样的零样本分类能力。

1e86b42ff5b7e7210ecfc3f32aa5af84.png

图源:OpenAI CLIP 博客。

和目标检测器 YOLOv5 相结合之后,CLIP 在语义搜索图像的基础上增加了裁剪能力,变身 Crop-CLIP。

  • 检测和裁剪对象 (yolov5s)

  • 使用 CLIP 对裁剪后的图像进行编码

  • 使用 CLIP 编码搜索查询

  • 找到最佳匹配部分

Crop-CLIP 也可用于创建数据集,需要在代码中进行一些更改,进行批量搜索查询。如下图所示,Jack Daniels 威士忌酒瓶的图像已被裁剪并保存。

7f9778bbf679c97561939db8aa54a3d6.png

项目作者 Vijish Madhavan 是一位自由开发者,现居英国,是利物浦约翰摩尔斯大学的硕士生。

1243baa6d428caacaf8686bc3287950c.png

但作者也提到了一点「限制」,Crop-CLIP 严重依赖目标检测器 YOLOv5,鉴于 YOLOv5 是在 COCO 数据集上进行预训练的目标检测架构和模型,因此 Crop-CLIP 检测过程中的类别会依赖于 COCO 中的类别。

所以在机器之心编辑部的试用过程中,也会出现不同程度的翻车事故。

想要草莓,结果却是金桔:

6d7ed7940e58b7ae326e6aa1eec805fb.png

想要猫咪,结果却是螃蟹:

cb2305431712a1bfab2146cab1e33153.png

这两张输出结果,刘能看了也要叹气:

b2c11a1628b1a49b1856179f7b99effa.png

ca0c3047f33e4d782b9ddf0c3749f676.png

至少,这个项目是一种有趣的创新,在后续的优化中,相信作者也会对数据集等方面进行改进,实现更好的搜图效果。

© THE END 

转载请联系机器之心获得授权

猜您喜欢:

超110篇!CVPR 2021最全GAN论文汇总梳理!

超100篇!CVPR 2020最全GAN论文梳理汇总!

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

e6d28290decf4285ff9078198ce4ff83.png

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
***)和CLIP(Contrastive Language-Image Pretraining)的技术。FAISS是一个用于高效相似度搜索的开源库,而CLIP是一个基于对比学习的图像和文本匹配模型。FAISS CLIP的目标是将这两种技术结合起来,实现在大规模数据集中进行基于文本的图像检索。 FAISS CLIP的基本原理是通过将图像和文本转换为向量表示,并计算它们之间的相似性来实现检索。首先,使用CLIP模型将输入的图像和文本编码为特征向量。然后,使用FAISS库进行高效的近似最近邻搜索,以找到与查询向量最相似的图像或文本。这种结合了文本和图像信息的相似度计算方法可以用于各种应用,如图像搜索、图像标注和图像生成等。 FAISS CLIP的优势在于它可以通过学习从图像和文本中提取语义信息的方式来进行检索。由于CLIP模型在大规模数据上进行了预训练,因此它能够学习到丰富的语义表示。而FAISS库则提供了高效的相似度搜索算法,可以在大规模数据集上进行快速检索。 总结起来,FAISS CLIP是将FAISS和CLIP两种技术结合起来,用于实现基于文本的图像检索。它通过将图像和文本转换为向量表示,并计算它们之间的相似性来实现检索。这种结合了文本和图像信息的相似度计算方法可以用于各种应用,如图像搜索、图像标注和图像生成等。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [VQGAN-CLIP:只是玩弄让 VQGAN+CLIP 在本地运行,而不必使用 colab](https://download.csdn.net/download/weixin_42134051/20709390)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [从零到一,教你搭建「CLIP 以文搜图」搜索服务(二):5 分钟实现原型](https://blog.csdn.net/weixin_44839084/article/details/125611422)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [faiss k-means 暂记](https://blog.csdn.net/ResumeProject/article/details/126706801)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值