首个原生自训练Anole模型详细落地经验分享

最新推荐文章于 2024-09-03 14:43:47 发布

置顶杰说新技术

最新推荐文章于 2024-09-03 14:43:47 发布

阅读量689

点赞数 18

分类专栏： AIGC 多模态文章标签： AIGC 人工智能语言模型

本文链接：https://blog.csdn.net/m0_71062934/article/details/140249346

版权

AIGC 同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

多模态

6 篇文章 0 订阅

订阅专栏

Anole模型是由上海交通大学GAIR团队研发的全球首个完全开源、自回归、原生训练的多模态大模型，专门用于交错图文生成。

Anole模型无需依赖复杂的扩散模型或其他技术，即可实现文字与图像的无缝交织，提供了一种原生的多模态生成解决方案。

Anole使用了约6,000张图像进行微调，以最少的额外训练实现了出色的图像生成和理解能力。

Anole通过局部微调方法，仅调整了不到40M的参数，便激发了Chameleon模型的图像生成能力，展示了在大型多模态模型中恢复复杂功能的高效性。

Anole不仅支持文本生成图像和交错图文生成，还具备纯文本生成和多模态理解的能力，使其在多种应用场景中都能发挥作用。

github项目地址为：https://github.com/GAIR-NLP/anole。

一、环境安装

1、python环境

建议安装python版本在3.10以上。

2、pip库安装

pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

pip install python-dotenv -i https://pypi.tuna.tsinghua.edu.cn/simple

cd chameleon

pip install -e .

3、Anole-7b-v0.1模型下载

git lfs install

git clone https://huggingface.co/GAIR/Anole-7b-v0.1

二、功能测试

1、命令行运行测试

首先设置模型路径为：

export CKPT_PATH= anole-model/Anole-7b-v0.1

（1）文本生成图像测试

python text2image.py -i INSTRUCTION -b BATCH_SIZE -s SAVE_DIR

这个命令用于根据给定的指令生成图像，具体参数包括：

INSTRUCTION：指定用于图像生成的指令或描述。

BATCH_SIZE ：设置要一次性生成的图像数量，默认值为10张。

SAVE_DIR：指定保存生成图像的目录路径。

（2）交错图文生成测试

python interleaved_generation.py -i INSTRUCTION -s SAVE_DIR

这个命令用于根据给定的指令生成交错图文，具体参数包括：

INSTRUCTION：指定用于交错图文生成的指令或描述。

SAVE_DIR：指定保存生成图像的目录路径。

2、测试结果

（1）文本生成图像结果

python text2image.py -i 'draw a parrot' -b 3 -s ./result

（2）交错图文生成结果

python interleaved_generation.py -i 'Please introduce the Paris of with pictures.' -s ./result

未完......

更多详细的内容欢迎关注：杰哥新技术

杰说新技术

关注

18
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
首个原生自训练Anole模型详细落地经验分享

Anole模型是首个开源的自回归、原生多模态大模型，它通过创新性微调，实现了文本与图像的无缝交织。Anole模型的技术创新在于其能够通过纯粹的"token"自回归预测，无需复杂的扩散模型，即可生成文字与图像的交替序列。Anole模型使用约6,000张图像数据集进行局部微调，展示了高效的学习能力。
复制链接

扫一扫

专栏目录