FashionCLIP: 深入理解与实战指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00708/article/details/141239721

FashionCLIP: 深入理解与实战指南

fashion-clipFashionCLIP is a CLIP-like model fine-tuned for the fashion domain.项目地址:https://gitcode.com/gh_mirrors/fa/fashion-clip

项目介绍

FashionCLIP 是一个基于 CLIP 架构在时尚领域进行微调的模型. 它旨在理解和处理有关时尚产品的图像和文本数据. 这一模型是基于 CLIP 的架构并且进行了专门针对时尚领域的优化使得其在零样本学习方面取得了卓越的成果.

FashionCLIP 的主要贡献在于它在一个新的大规模高质量的时尚数据集上对 CLIP 类模型进行领域特定的微调研究是否仅通过域特异性微调就能产生足以零样本迁移到完全新数据集和任务的产品表示而无需额外的训练或调整.

该模型使用了ViT-B/32作为图像编码器并且使用了一个带有遮罩自注意力机制的Transformer作为文本编码器这些编码器从预训练检查点开始训练以最大化(image-text)对之间的相似性进而通过对比损失函数来达到这一目的.

快速启动

为了快速入门并利用FashionCLIP的功能我们将指导您如何安装此包以及演示一些基本操作在您的环境中安装FashionCLIP 首先打开终端窗口并输入以下命令:

$ pip install fashion-clip

完成安装后您可以很容易地生成图像和文本嵌入假设我们有一个图像路径列表和文本列表示例代码如下所示:

from fashion_clip.fashion_clip import FashionCLIP
fclip = FashionCLIP('fashion-clip')

# 创建图像嵌入和文本嵌入
image_embeddings = fclip.encode_images(image_paths)
text_embeddings = fclip.encode_texts(text_list)

此外当您有一个 FashionCLIP 数据集时可以以这种方式加载它:

from fashion_clip.dataset import FCLIPDataset
dataset = FCLIPDataset(name='FF', 
                       image_source_path='path/to/images',
                       image_source_type='local')
fclip = FashionCLIP('fashion-clip', ff_dataset=dataset)