VLM 系列——中文CLIP——论文解读

本文深入解读了VLM系列中的中文CLIP模型,涵盖模型结构、训练策略、数据处理和实验结果。重点讨论了模型在多维度任务上的表现,包括检索性能、零样本分类和知识蒸馏等,并指出了未来研究中待解决的数据和模型问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、概述

1、是什么

    CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。

2、亮点

    *开源代码、模型(多个版本模型:图像编码器提供5种,参数量77-958M)、demo,并且提供用于部署的NVIDIA TensorRT和ONNX模型,比用于推理的Pytorch模型快2到10倍。
    *消融实验后验证,两阶段训练更优:使用CLIP初始化,先训练文本编码器;再联合训练。
    *在MUGE
### 关于视觉语言模型 (VLM) 的研究论文 以下是几篇与视觉语言模型 (VLM) 相关的研究论文,涵盖了不同的应用场景和技术细节: #### 1. **MResT: Multi-Resolution Sensing for Real-Time Control with Vision-Language Models** 这篇论文探讨了如何通过多分辨率感知技术实时控制视觉语言模型的应用场景。文中提到的扩散策略学习(Diffusion Policy Learning)是一个重要的组成部分[^1]。这种技术能够帮助模型更好地理解复杂的环境并作出相应的决策。 #### 2. **Robot-Action Fine-tuning** 此部分讨论了基于视觉语言模型的动作微调过程。具体来说,文章提到了两种预训练的视觉语言模型——PaLI-X 和 PaLM-E,并将其扩展为 RT-2-PaLI-X 和 RT-2-PaLM-E 版本。这些模型被用来解决广泛的视觉解释和推理任务,例如推断图像组成以及回答关于对象间关系的问题[^2]。 #### 3. **Moonshot: A New Video Generation Model Handling Both Images and Text as Inputs** Moonshot 是一种新型视频生成模型,支持同时处理图像和文本输入。它的核心组件是多模态视频块(Multi-modal Video Block, MVB),其中包含了用于表示视频特性的时空层和专门设计来应对外观调节需求的分离交叉注意层。此外,该模型还具备与预先训练好的图像 ControlNet 集成的能力,从而实现几何视觉条件下的高效适配[^3]。 #### 4. **Stimulating the Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling** 虽然主要关注点在于图像去噪领域内的扩散模型改进方案,但它同样涉及到了一些可用于增强视觉语言建模效果的技术手段。比如自适应嵌入和集成方法可以提升模型对于噪声数据的理解能力,进而间接促进 VLM 性能优化[^4]。 ```python # 示例代码展示如何加载一个简单的视觉语言模型框架 import torch from transformers import CLIPProcessor, CLIPModel model_name = "openai/clip-vit-base-patch32" processor = CLIPProcessor.from_pretrained(model_name) model = CLIPModel.from_pretrained(model_name) image_path = "./example_image.jpg" text_input = ["A photo of a cat", "A photo of a dog"] def process_and_predict(image_path, text_input): image = processor(images=image_path, return_tensors="pt")["pixel_values"] inputs = processor(text=text_input, images=None, return_tensors="pt", padding=True) outputs = model(**inputs) logits_per_image = outputs.logits_per_image probabilities = torch.nn.functional.softmax(logits_per_image, dim=-1).tolist()[0] result_dict = {t:p for t,p in zip(text_input,probabilities)} return sorted(result_dict.items(), key=lambda item:item[1], reverse=True) predictions = process_and_predict(image_path, text_input) print(predictions) ``` 上述代码片段展示了如何使用 HuggingFace 提供的 `transformers` 库中的 CLIP 模型来进行基本的图文匹配预测操作。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你点滴支持,我持续创作,羞羞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值