统一多种图像生成人物的扩散模型OmniGen部署

OmniGen是一个由北京人工智能研究院的研究人员提出的专为统一图像生成而设计的新型扩散模型。

OmniGen 采用了变分自动编码器(VAE)与预训练的大规模Transformer模型相结合的设计,VAE负责从输入图像中提取连续的视觉特征,而Transformer则根据这些特征及给定条件生成最终的输出图像。

OmniGen可以接受自由形式的多模态交错文本和图像作为输入,使用Phi-3分词器处理文本数据,并通过VAE将图像转化为潜在表示后进一步编码成视觉标记序列。

OmniGen模型具有处理多种图像生成任务的能力,从简单的文本到图像转换到更复杂的图像编辑与视觉条件生成。

通过在统一格式下进行学习,OmniGen能够有效地跨不同任务传递知识,应对未见的任务和领域,并展示出新的能力。

github项目地址:https://github.com/VectorSpaceLab/OmniGen。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install git+https://github.com/huggingface/parler-tts.git

3、模型下载

git lfs install

git clone https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-2_6

、功能测试

1、运行测试

(1)python代码调用测试

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值