CLIP项目复现

 代码原址:

GitHub - rmokady/CLIP_prefix_caption: Simple image captioning modelSimple image captioning model. Contribute to rmokady/CLIP_prefix_caption development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/rmokady/CLIP_prefix_caption

项目介绍:

    image caption简单来说就是看图说话:给定一张图片,生成该图片对应的自然语言描述。图像描述任务涉及到了图像和自然语言两个模态,然而图像与自然语言空间本身就非常庞大,两者之间存在巨大的语义鸿沟。如何将两个庞大的语义空间对齐,是图像描述任务的重点。

    ClipCap: CLIP Prefix for Image Captioning 这篇论文实现了图像到语义空间的转化,搭建了一种基于Mapping Network的Encoder-Decoder模型,其中Mapping Network扮演了图像空间与文本空间之间的桥梁。论文模型主要分为三部分:

  • 图像编码器:采用CLIP模型,负责对输入的图像进行编码,得到一个图片向量。
  • Mapping Network:扮演图像空间与文本空间之间的桥梁,负责将图片向量映射到文本空间中,得到一个文本提示向量序列。
  • 文本解码器:采用GPT2模型,根据提示向量序列,生成最终的预测描述

CLIP算法核心:

    CLIP算法本质上就是完成图像-文本对匹配。通过图像和文本编码器转化成向量,再进一步转化到同一个高维的向量空间中,计算图像和文本向量的相似度。实际就是在训练数据,让图像和文本完成一对一匹配,当输入预测图片时候,得到预测图片向量,去训练好的匹配库中,找出最相似的文本向量进行输出。

 效果展示:

本人根据clip官网的代码,替换过数据集进行过训练和测试,包括中文数据和英文数据。英文数据测试效果如下:

     clip这个项目代码需要的环境很复杂,有点难调,我有搭好的环境和现成改好的代码,有需要替换自己数据集进行训练和测试的朋友,欢迎来私信我,有偿帮忙训练和讲解哦!!!

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 21
    评论
复现PyTorch图像代码,首先需要进行一些步骤和修改,具体如下: 1. 引用中提到,将`from torch.utils.serialization import load_lua`改为`import torchfile`。这是因为在新版本的PyTorch中,`torch.utils.serialization`已被移除,可以使用`torchfile`来代替。 2. 在代码中插入以下代码段,引用中提到的: ``` device = torch.device("cuda" if torch.cuda.is_available() else "cpu") ``` 这段代码会检查是否有可用的CUDA设备,如果有则使用CUDA,否则使用CPU。这可以提高代码在GPU上的运行速度。 3. 将引用中提到的代码段: ``` if args.to(device): ``` 替换为以下代码段: ``` if torch.cuda.is_available(): ``` 这段代码会检查是否有可用的CUDA设备,如果有,则将数据和模型移动到CUDA设备上。 通过以上步骤和修改,可以成功复现PyTorch图像代码,并在需要时将代码运行在CUDA设备上,以加速计算。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [densefuse-pytorch 图像融合代码复现记录](https://blog.csdn.net/m0_37933882/article/details/111630934)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值