clip算法的研究：《CLIP 零样本实战：两行代码教会模型“认轮椅”——从概率矩阵到余弦相似度》

交通上的硅基思维

已于 2025-10-09 08:57:39 修改

阅读量771

点赞数

CC 4.0 BY-SA版权

分类专栏：算法图像处理文章标签：深度学习 python 人工智能

于 2022-10-01 08:42:52 首次发布

本文链接：https://blog.csdn.net/matlab_python22/article/details/127131475

97 篇文章 ¥9.90 ¥99.00

订阅专栏

82 篇文章 ¥9.90 ¥99.00

订阅专栏

该博客介绍了如何运用预训练的CLIP模型进行图像分类。通过计算文本和图像特征的余弦相似度，确定图像内容。内容涉及加载图像、处理文本描述、提取特征以及计算相似度。

wheelchair.jpg
nowheelchair.jpg
[[0.31989905 0.18366921]
[0.31910986 0.18774156]]

代表了概率。第一个代表了他的概率是0.3198 这个数值是大的因此认为是轮椅

另外一个代表了0.18777 代表了不是轮椅

标题：

封面一句话：
不用微调，不用标注，只要两张图 + 两句话，让开源 ViT-B/32 告诉你“哪张是轮椅”。

OpenAI 的 CLIP（Contrastive Language-Image Pre-training）把“视觉”和“语言”压到同一向量空间。
零样本能力：见词即识图，无需再训练。

表格

复制

了解本专栏