调用Blip image tokenizer实现image2text

最新推荐文章于 2024-08-30 14:11:28 发布

致力于

最新推荐文章于 2024-08-30 14:11:28 发布

阅读量13

点赞数

文章标签： linux 服务器数据库运维

from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image

# Load the model and processor
processor = BlipProcessor.from_pretrained("huggingface.co/Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("huggingface.co/Salesforce/blip-image-captioning-base")

# Load and preprocess an image
img = Image.open("data/input_image.png")
inputs = processor(img, return_tensors="pt")

# Generate caption
out = model.generate(**inputs)
caption = processor.decode(out[0], skip_special_tokens=True)

# Print the generated caption
print(caption)

原创作者: guotong1988 转载于: https://blog.51cto.com/guotong1988/11830188

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

致力于

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
调用Blip image tokenizer实现image2text

登录后复制 from transformers import BlipProcessor, BlipForConditionalGenerationfrom PIL import Image# Load the model and processorprocessor = BlipProcessor.from_p...
复制链接

扫一扫

BeautifulPrompt:Towards automatic prompt engineering for text-to-image synthesis

liguandong

11-14

216

作者：曹庭锋、汪诚愚、吴梓恒、黄俊背景Stable Diffusion（SD）是一种流行的AI生成内容（AI Generated Content，AIGC）模型，能在文字输入的基础上生成各种风格多样的图像。sd目前的生成非常依赖用户的prompt，这算是一个方向，也有不少的工作，beautifulprompt我在modelscope上实测了一下，效果还是很一般。1.3 图像标题生成，搜集了高质量的图文对，对图像进行image captioning，生成更多可供训练的prompt。

[linux-sd-webui]图生文，blip/deepdanbooru

liguandong

05-11

2822

同步发布在我的博客 https://blog.thisis.plus/2023/04/22/clip_interrogator%E6%95%99%E7%A8%8B/文字生成图片是近年来多模态和大模型研究的热门方向，openai提出的CLIP提供了一个方法建立起了图片和文字的联系，…blip是个多模态的视觉-语言模型，在webui中使用了blipv1，目前blip已经有v2版本了，deepbooru适合二次元的场景，除此之外的场景建议使用blip，blip有两个版本，，还有一个原作者团队整合的。

参与评论您还未登录，请先登录后发表或查看评论

多模态text-image模型之LM loss （blip）

vivi_cin的博客

04-08

823

这两个方法构成了整个模型的前向传播过程和生成过程，分别用于模型的训练和推理。其实就是bert的MLM Loss。，用于解码图像和生成文本描述。

NLP实践——VQA/Caption生成模型BLIP-2的应用介绍

weixin_44826203的博客

02-16

8061

本文介绍最新的图文生成模型BLIP-2，从下载安装到简单的应用。

咱们边玩边学BLIP2

银晗的学习博客

12-05

1083

具体来说，在助攻生成过程中，特定的助攻模型将返回模型的生成 output 或。函数负责执行不同的生成方法和逻辑以生成模型的输出。它允许用户根据实际需要执行不同的生成方法，并支持其他参数的进一步控制。这个函数给了人们灵活的选择，以获得满足需求的生成输出。函数根据模型的生成配置、输入和相应的参数调用相应的生成方法，包括模型的贪婪搜索、显示搜索、样本生成等。函数可以进入不同的生成模式和执行相应的生成方法，比如贪婪搜索，显示搜索等。接下来，通过选择合适的方法和参数对模型进行生成，并返回生成的输出。

BLIP-2：冻结现有视觉模型和大语言模型的预训练模型

m0_51976564的博客

11-20

2840

BLIP-2：冻结现有视觉模型和大语言模型的预训练模型 Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models

BLIP 模型使用指南

gitblog_01159的博客

08-08

815

BLIP 模型使用指南 BLIPPyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 项目地址:https://gitcode.com/gh_mirrors/bl/BLIP 1. 项目介绍 BLIP（Boo...

langchain_summarizer的使用以及报错解决：OSError: Can‘t load tokenizer for ‘gpt2‘.

JessY_Zhao的博客

01-22

2577

LangChain summarizer是一个可以利用大语言模型生成文档摘要的工具。本人在实操过程中，主要参阅了以下资料：文章一：ChatGPT生成英文摘要LangChain Summarizer：一个让你轻松生成文档摘要的神奇工具文章二：ChatGLM生成中文摘要ChatGLM-6B + LangChain 实践文章三：官方文档关于ChatGLM类的使用。

【多模态】35、TinyLLaVA | 3.1B 的 LMM 模型就可以实现 7B LMM 模型的效果

呆呆的猫的博客

06-06

1170

本文主要介绍 TinyLLaVA

粗看最近爆火的mem0个性化轻量级框架：兼谈多模态数据的tokenizer

人工智能曾小健

07-23

767

本文主要介绍了两件事，一个是mem0，类似于agent，一个是不同模态的tokenizer，这些都是多模态的基础，感兴趣的可以多看看。

Visualglm-6b

liguandong

06-06

1522

【官方教程】XrayGLM微调实践，（加强后的GPT-3.5）能力媲美4.0，无次数限制。

VisualGLM - 多模态中英双语对话语言模型

编码时光

10-03

566

关于 VisualGLM 背景: 多模态预训练背景: ChatGLM-6B VisualGLM-6B 训练微调不同微调方案需要的资源 Lora merge

Linux中的常见命令——用户管理命令

qq_45569925的博客

08-27

1702

默认创建用户的时候会在home文件夹下创建一个与用户同名的文件夹【该用户的主目录】，也可以在创建用户的时候设置该用户主目录的名称。【输入的密码是不在控制台显示的，输入完之后直接按回车键即可】使用wgh用户查看root下的文件。【此时的用户是没有密码的】给创建的用户设置密码。查看某个用户是否存在。

【Linux】进程｜进程的查看与管理｜创建进程

2202_75331338的博客

08-27

1574

❍ 课本概念：程序的一个执行实例，正在执行的程序等❍ 内核观点：担当分配系统资源（CPU时间，内存的实体）简单来说：进程 == PCB(进程控制块) + 进程对应的代码和数据；一个进程对应一个PCB操作系统对进程的管理，最终变成了对链表的增删查改。注意：可执行程序加载到内存不是进程，只是进程对应的代码和数据。

linux 系统性能调优技巧

m0_50641264的博客

08-27

1407

【代码】linux 系统性能调优技巧。

linux 系统如何进行nfs（第五节）