首个原生自训练Anole模型详细落地经验分享

Anole模型是由上海交通大学GAIR团队研发的全球首个完全开源、自回归、原生训练的多模态大模型,专门用于交错图文生成。

Anole模型无需依赖复杂的扩散模型或其他技术,即可实现文字与图像的无缝交织,提供了一种原生的多模态生成解决方案。

Anole使用了约6,000张图像进行微调,以最少的额外训练实现了出色的图像生成和理解能力。

Anole通过局部微调方法,仅调整了不到40M的参数,便激发了Chameleon模型的图像生成能力,展示了在大型多模态模型中恢复复杂功能的高效性。

Anole不仅支持文本生成图像和交错图文生成,还具备纯文本生成和多模态理解的能力,使其在多种应用场景中都能发挥作用。

github项目地址为:https://github.com/GAIR-NLP/anole。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

pip install python-dotenv -i https://pypi.tuna.tsinghua.edu.cn/simple

cd chameleon

pip install -e .

3、Anole-7b-v0.1模型下载

git lfs install

git clone https://huggingface.co/GAIR/Anole-7b-v0.1

、功能测试

1、命令行运行测试

首先设置模型路径为:

export CKPT_PATH= anole-model/Anole-7b-v0.1

(1)文本生成图像测试

python text2image.py -i INSTRUCTION -b BATCH_SIZE -s SAVE_DIR

这个命令用于根据给定的指令生成图像,具体参数包括:

INSTRUCTION:指定用于图像生成的指令或描述。

BATCH_SIZE :设置要一次性生成的图像数量,默认值为10张。

SAVE_DIR:指定保存生成图像的目录路径。

(2)交错图文生成测试

python interleaved_generation.py -i INSTRUCTION -s SAVE_DIR

这个命令用于根据给定的指令生成交错图文,具体参数包括:

INSTRUCTION:指定用于交错图文生成的指令或描述。

SAVE_DIR:指定保存生成图像的目录路径。

2、测试结果

(1)文本生成图像结果

python text2image.py -i 'draw a parrot' -b 3 -s ./result

(2)交错图文生成结果

python interleaved_generation.py -i 'Please introduce the Paris of with pictures.' -s ./result

未完......

更多详细的内容欢迎关注:杰哥新技术

  • 18
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值