基于openAI 的 clip模型启动一个图片识别分类

wzerofeng

已于 2024-02-15 16:11:53 修改

阅读量513

点赞数 9

文章标签： golang chatgpt 人工智能

于 2024-01-31 10:40:38 首次发布

本文链接：https://blog.csdn.net/weixin_38385580/article/details/132884395

版权

import torch
import clip
from PIL import Image

# 加载预训练模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load('ViT-B/32', device='cpu')

# 加载图像
image = Image.open('日产.jpeg')

# 对图像进行预处理
image_input = preprocess(image).unsqueeze(0)

# 运行模型
with torch.no_grad():
    image_features = model.encode_image(image_input)

# 加载类别标签
class_labels = ['cat', 'dog', 'flower', 'food', 'car','cann']

# 加载类别描述
class_descriptions = clip.tokenize(class_labels).to(device)

# 计算图像与类别描述之间的相似度
logits_per_image, logits_per_text = model(image_input, class_descriptions)
probas = logits_per_image.softmax(dim=-1).cpu().detach().numpy()

# 输出预测结果
for i, class_label in enumerate(class_labels):
    print(f"{class_label}: {probas[0][i]}")

特别注意三个库的导入

pip3 install Pillow 
pip3 install torch
#特别是 clip 别导入错了
pip3 install openai-clip
#额外安装的库
pip3 install torchvision

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wzerofeng

关注关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

〖ChatGPT实践指南 - 零基础扫盲篇⑧〗- OpenAI 的模型(Model) 介绍

易编橙 · 终身成长社群，相遇已是上上签！

04-28

2万+

小伙伴们大家好，该章节我们来了解一下 ChatGPT 一个关键概念 - 模型(Model)。主要是为大家介绍一下在 OpenAI 中，究竟有哪些模型可以使用。在后续的章节，我们会分单独的小章节逐一的为大家介绍各个不同模型的调用以及接口参数的一些说明，该章节我们先来做一个大概得了解即可。

人工智能_大模型054_多模态大语言模型02_图文对齐_openai clip模型_中文Chinese Clip模型_图像内容识别_目标检测_图像分割_GPT4V图文能力---人工智能工作笔记0189

添柴程序猿的专栏

05-10

250

置的,其次,他把图片对应的文本,也要token化,可以看到上面紫色部分T1 T2 T3这是文本token化后的内容,然后,接下来要做的就是要计算文本token和。2.可以看到之后大模型学习以后,在输入其他文本,就可以依据文本,快速找到文本对应的图片,也可以通过图片,找到对应的文本,就实现了,图片找文本,文本找图片的功能.然后,如果需要目标检测的话,那么就需要把图像分割的大小,进一步缩小,提高到region级别,切分的要更小一点,比如人脸检测等,需要这个,Detr就是这样弄的.

参与评论您还未登录，请先登录后发表或查看评论

使用OpenAI CLIP链接图像和文本

深度学习与计算机视觉

10-30

6014

介绍尽管深度学习已经彻底改变了计算机视觉和自然语言处理，但使用当前最先进的方法仍然很困难，需要相当多的专业知识。诸如对比语言图像预训练（CLIP）等OpenAI方法旨在降低这种复杂性，从而...

OpenAI最重要的模型【CLIP】

新缸中之脑

02-11

6851

CLIP 代表 Contrastive Language-Image Pretraining：CLIP 是一个开源、多模态、零样本模型。给定图像和文本描述，该模型可以预测与该图像最相关的文本描述，而无需针对特定任务进行优化。开源：该模型由 OpenAI 创建并开源。稍后我们将看到有关如何使用它的编程教程。多模态：多模态架构利用多个领域来学习特定任务。CLIP 结合了自然语言处理和计算机视觉。零样本：零样本学习是一种在未见过的标签上进行泛化的方法，无需专门训练来对它们进行分类。

模型实践｜ CLIP 模型

weixin_66945478的博客

03-28

1万+

CLIP(Contrastive Language-Image Pre-Training，以下简称 CLIP) 模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型，可以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进行预训练，在很多任务表现上达到了目前最佳表现（SOTA）💯。

OpenAI——CLIPs（代码使用示例）

weixin_43860330的博客

03-09

2898

OpenAI——CLIPs（代码使用示例）

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人 | 在线可玩

量子位

01-27

833

金磊发自凹非寺量子位报道 | 公众号 QbitAI别再怕图片搜索结果牛头不对马嘴了，你可以试试这个精准图片搜索，来自OpenAI最新的技术CLIP。只需一句“大白话”描述，便能给...

CLIP openai多模图形-文字匹配；文字query搜索图片；以图搜图；再训练

weixin_42357472的博客

04-07

4256

参考：https://github.com/openai/CLIP 安装环境 pip install torch==1.7.1+cpu torchvision==0.8.2+cpu -f https://download.pytorch.org/whl/torch_stable.html pip install ftfy regex tqdm 1、输入图片检索是什么内容 import torch import clip from PIL import Image device = "cud

Unity 之如何实现基于OpenAI的ChatGPT的聊天机器人

08-20

4万+

零次学习（Zero-Shot Learning，简称ZSL）假设斑马是未见过的类别，但根据描述外形和马相似、有类似老虎的条纹、具有熊猫相似的颜色，通过这些描述推理出斑马的具体形态，从而能对斑马进行辨认。零次学习就是希望能够模仿人类的这个推理过程，使得计算机具有识别新事物的能力，如下图所示。如今深度学习非常火热，使得纯监督学习在很多任务上都达到了让人惊叹的结果，但其限制是：往往需要足够多的样本才能训练出足够好的模型，并且利用猫狗训练出来的分类器，就只能对猫狗进行分类，其他的物种它都无法识别。

【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

呆呆的猫的博客

04-08

3719

本文主要介绍 CLIP 模型

Openai连接文本和图像CLIP模型(Huggingface版)zero-shot分类代码案例

Allen_人工智能与大数据

07-03

5532

主要和大家分享一下Openai大热的连接文本和图像CLIP模型(Huggingface版)zero-shot分类代码案例，其实还是可以看到一些GPT的影子，模型本身比较简单，没什么难度，或许是将来的趋势吧。可以运用到更多的下游任务。.........

跨模态检索：基于OpenAI的Clip预训练模型构建以文搜图系统

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

08-25

3951

本项目基于OpenAI的Clip预训练模型及milvus向量数据库两个关键技术，构建了以文搜图的跨模态检索系统；经过Clip模型编码后每个图片输出向量维度为768，存入milvus向量数据库；为保证图像检索的效率，通过脚本在milvus向量数据库中构建了向量索引。此项目可作为参考，在实际开发类似的以图搜图项目中直接使用。

OpenAI CLIP 关键点 - 连接图像和文字

Gefangenes的博客

05-08

309

【代码】OpenAI CLIP 关键点 - 连接图像和文字。

【模型学习】CLIP_对比语言-图像预训练

wufen_的博客

02-22

1459

CLIP的全称是Contrastive Language-Image Pre-Training，中文是对比语言-图像预训练。CLIP的主要目标是通过对比学习，学习匹配图像和文本。在训练过程中，模型学会了将图像和文本编码成统一的向量空间，这使得它能够在语言和视觉上理解它们之间的关系。通过这种方式，CLIP可以识别图像中的物体、场景、动作等元素，同时也能够理解与图像相关的文本，例如标签、描述、标题等。CLIP的基本原理是对比学习，即让模型学习区分正样本（匹配的图像和文本对）和负样本（不匹配的图像和文本对）

【3万字代码解读】DA-CLIP/open_clip模型创建、模型配置读取、预训练权重地址读取

m0_60350022的博客

03-26

3607

DA-CLIP/open_clip仓库中模型创建、模型配置读取、预训练权重地址读取代码解读

图像分类竞赛进阶技能：OpenAI-CLIP使用范例

weixin_45794268的博客

02-18

1368

Openai-CLIP，连接文本与图像，Cover所有视觉分类任务

多模态模型之CLIP模型简介

SimpleLearning

02-27

2880

CLIP 模型通过对比学习实现了图像和文本之间的跨模态理解，为多种任务提供了强大的支持。

CLIP 图文检索，相似度计算

蓝羽飞鸟的博客

04-02

1913

用openAI的CLIP模型做检索和相似度计算

openai clip

04-30

OpenAI Clip是一款由OpenAI公司开发的AI模型，它的主要功能是为计算机提供视觉理解能力。通过深度学习技术，OpenAI Clip能够分辨出图像中的对象、场景、颜色以及其他物体特征。同时，它还能够自我修正和学习，以...