MobileCLIP: 快速图像-文本模型的多元强化训练

MobileCLIP: 快速图像-文本模型的多元强化训练

ml-mobileclip This repository contains the official implementation of the research paper, "MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training" CVPR 2024 ml-mobileclip 项目地址: https://gitcode.com/gh_mirrors/ml/ml-mobileclip

1. 项目介绍

MobileCLIP 是一种通过多元强化训练实现的快速图像-文本模型。该项目是 CVPR 2024 研究论文 "MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training" 的官方实现。MobileCLIP 模型在各种任务中表现出色,包括零样本图像分类,且在速度和大小上都有优势。

2. 项目快速启动

首先,需要创建一个 Python 环境,并安装必要的依赖:

conda create -n clipenv python=3.10
conda activate clipenv
pip install -e .

为了下载预训练的检查点,执行以下命令:

source get_pretrained_models.sh

以下是使用 MobileCLIP 模型的示例代码:

import torch
from PIL import Image
import mobileclip

model, _, preprocess = mobileclip.create_model_and_transforms('mobileclip_s0', pretrained='/path/to/mobileclip_s0.pt')
tokenizer = mobileclip.get_tokenizer('mobileclip_s0')

image = preprocess(Image.open("docs/fig_accuracy_latency.png").convert('RGB')).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)

image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)

text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)
print("Label probs:", text_probs)

3. 应用案例和最佳实践

  • iOS 应用案例:项目中提供了一个 iOS 应用,用于展示模型在移动设备上的实时零样本图像分类性能。可以在 ios_app 目录中找到相关代码。

  • 最佳实践:为了在 OpenCLIP 中使用 MobileCLIP 模型,需要先设置环境,并按照以下步骤操作:

conda create -n clipenv python=3.10
conda activate clipenv
pip install git+https://github.com/mlfoundations/open_clip
pip install git+https://github.com/huggingface/pytorch-image-models

然后在 OpenCLIP 中运行推理,具体示例可以参考 OpenCLIP 仓库中的示例。

4. 典型生态项目

目前,MobileCLIP 支持的变体有 MobileCLIP-S0、MobileCLIP-S1、MobileCLIP-S2 和 MobileCLIP-B。这些变体在 ImageNet-1k 数据集上的零样本性能和在不同数据集上的平均性能都有详细的评估结果。具体的性能数据和比较可以在项目的 eval 目录中找到相关脚本进行复现。

ml-mobileclip This repository contains the official implementation of the research paper, "MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training" CVPR 2024 ml-mobileclip 项目地址: https://gitcode.com/gh_mirrors/ml/ml-mobileclip

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

1. 内容概要 本项目是一个支持科学函数的命令行计算器,兼容 C++98 标准。它实现了中缀表达式词法分析、后缀表达式转换与求值,支持常见数学运算(如幂、三角函数、对数等)与括号优先级解析。程序还提供了角度版三角函数、角度与弧度互转功能,并支持函数调试输出与函数演示模式。 2. 适用人群 * C++ 初中级学习者,特别是希望深入理解表达式求值机制者 * 需要一个可扩展的计算引擎的项目开发者 * 想通过项目实践词法分析、调度场算法、数学函数封装的开发者 * 高校学生课程设计、编译原理实践者 3. 使用场景及目标 * 实现中缀表达式的完整求解器,支持函数嵌套、优先级与结合性处理 * 提供角度与弧度版本的三角函数,以适应不同输入偏好 * 演示中缀转后缀过程,辅助编程教育与算法教学 * 提供科学函数辅助计算,如 `log`, `sqrt`, `abs`, `exp`, `ceil`, `floor` 等 4. 其他说明 * 支持函数:sin, cos, tan(弧度);sind, cosd, tand(角度) * 支持函数嵌套,如 `sin(deg2rad(30))` * 支持操作符:+, -, \*, /, ^, \*\*(幂运算)与括号优先级 * 所有函数均通过 map 注册,方便扩展与自定义 * 输入 `help` 查看支持函数,`demo` 观看转后缀过程,`quit` 退出程序 * 提示用户避免使用 `°` 符号,推荐使用角度函数代替 * 可通过 `g++ calculator.cpp -o calculator -lm` 编译(需链接数学库)
### 解决 `pip install mobileclip` 找不到匹配版本的问题 当执行命令 `pip install mobileclip` 并遇到错误提示“No matching distribution found”,通常表示存在以下几种可能的原因: #### 1. **网络连接问题** 如果无法访问 PyPI 的 SSL 认证,可能会导致下载失败。这可能是由于本地环境缺少必要的 OpenSSL 支持所致[^3]。 解决方案可以尝试更新或重新安装 `pip` 和其依赖项: ```bash python -m ensurepip --upgrade python -m pip install --upgrade pip setuptools wheel ``` 同时确认是否有代理设置干扰了请求过程。可以通过指定镜像源来绕过潜在的网络障碍: ```bash pip install mobileclip -i https://pypi.tuna.tsinghua.edu.cn/simple ``` --- #### 2. **Python 版本不兼容** 某些库仅支持特定范围内的 Python 版本。例如,`mobileclip` 可能只适配较新的 Python 版本(如 3.7 或更高)。当前使用的 Python 版本较低可能导致此问题发生[^4]。 验证所用 Python 版本的方法如下: ```bash python --version ``` 若发现版本低于推荐值,则需升级至最新稳定版并重试安装操作。 --- #### 3. **虚拟环境中路径冲突** 在 CentOS 系统或其他 Linux 发行版上运行 Certbot 配置 SSL 过程中曾报告相似状况——即因虚拟环境构建不当引发包管理异常情况[^4]。对于常规项目而言,建议创建独立的工作区以隔离全局与局部依赖关系差异带来的影响。 建立新虚拟环境步骤如下所示: ```bash python -m venv myenv source myenv/bin/activate pip install mobileclip ``` 激活后的终端会话前缀应显示 `(myenv)` 表明已切换到自定义空间下继续后续流程处理动作。 --- #### 4. **目标软件包确实不存在于官方索引里** 最后一种可能性是该名称下的资源根本未上传至公共仓库之中或者已被移除删除掉不再提供公开获取途径。此时可查阅文档说明寻找替代品或是联系开发者索取私有分发链接地址用于手动加载方式实现相同功能效果达成目的[^1]。 假如以上方法均未能奏效的话,请考虑采用其他类似的机器学习框架组件作为备选方案之一来进行实验探索活动开展下去吧! --- ### 提供一段示例代码片段展示如何正确调用 MobileCLIP 功能接口假设成功完成上述准备工作之后即可正常引入模块开始编写应用程序逻辑部分啦!以下是简单的测试脚本例子仅供参考借鉴使用哦~ ```python import mobileclip model = mobileclip.MobileCLIPModel.from_pretrained('google/mobilebert-uncased') tokenizer = mobileclip.AutoTokenizer.from_pretrained('google/mobilebert-uncased') text_inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, truncation=True, return_tensors="pt") image_input = ... # 加载图像数据 outputs = model(**text_inputs, images=image_input) print(outputs.logits_per_image.shape) # 输出形状应该是 batch_size x num_images ``` 问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

时翔辛Victoria

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值