紫东太初:自动化所开源图-文-音三模态的预训练大模型

近日,中科院自动化所研发并开源了全球首个图文音(视觉-文本-语音)三模态预训练模,兼具跨模态理解和生成能力,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型。

中文预训练模型

模型介绍

文本预训练模型使用条件语言模型作为自监督目标进行训练,和GPT一样,模型根据上文来预测当前词汇。中文预训练语言模型(Chinese-GPT)由40层transformer组成,隐藏层维度为2560,包含32个注意力头,共32亿参数。模型结构如下所示:

5743030af5daad5a7bf7866f66f7b202.png

模型下载与使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/text

应用示例

中文预训练模型基础上可以进行微调操作,充分利用少量有监督数据增强模型在下游任务上的表现,如文本分类,对话生成、古诗创作等。

1、文本续写

d0a294d6476f8ef6ecc6abd590989ac2.png

2、自动问答

4aba2370386ae05af790aa4bbc3a8a0d.png

视觉预训练模型

模型下载与使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/vision

目标检测结果展示

1db84f3ce94431433cbbe0abea0ff05a.gif

语义分割结果展示

bb5f4cf666da0a88fc10bf06462bcfbd.gif

轻量化图文预训练模型

模型介绍

现有的图文预训练模型主要针对英文文本描述进行图像生成,自动化所开源的图文预训练模型可以根据中文文本描述实现图像生成,采用千万级训练数据进行自监督训练,并通过知识蒸馏算法实现了模型的大幅度压缩,在尽可能保留模型性能的同时,实现了预训练模型的轻量化。

dce2382f5aec4adc498dfa8c2c0ff94c.png

轻量化图文预训练模型由DALL-E和CLIP两个模型组成,DALL-E模型由8层Transformer组成,隐层维度为512,包含32个注意力头,约1亿参数;CLIP模型由6层Vision Transformer和3层Transformer组成,Vision Transformer的隐层维度为256,包含16个注意力头,Transformer的隐层维度为192,包含12个注意力头,约1700万参数。

模型下载与使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/light_vision_text

图像检索

将三模态预训练大模型仓库克隆至本地:

git clone https://gitee.com/zidongtaichu/multi-modal-models.git
cd multi-modal-models

下载 Light_CLIP 模型文件 model.pt 至 light_vision_text/Light_CLIP 文件夹下:

3b0862fef2bdd16a2b4e16fc34442039.png

cc7b8fc3ed098e37f31fc87c6c30bbe0.png

该示例中,待检索图像库一共有两张图片,分别是 dog.jpg 和 cat.jpg:

8f8c1c2b3a6d9cbf832c3bfe23842e82.png25e00accc2f4e690f1d5b364f6d8106f.png

test.py 实现基于文本的图像检索:

ee0bdf45f9132b1126b827e7addf2328.png

输入文本为:一只可爱的狗狗在草地上奔跑,运行 python test.py,模型输出图像库中各个图片的概率值:

25bc05c06d5871dc32ce918bd9a9940c.png

输入文本为:一只猫咪躺在沙发上睡觉,运行 python test.py,模型输出图像库中各个图片的概率值:

72853c95db5df2d384918f60b2e009ef.png

图像生成

(a) 下载 Light_VQGan_Dalle 模型文件dalle_small_model_pre_0924_lr1e-4_new_epoch7_data_point5761440.pt 至 light_vision_text/Light_VQGan_Dalle 文件夹下;

(b) 下载 vqgan 模型文件 vqgan_model.ckpt 至 light_vision_text/Light_VQGan_Dalle/vqgan 文件夹下;

(c) 将 Light_CLIP 模型文件 model.pt 下载至 light_vision_text/Light_VQGan_Dalle/clip 文件夹下。

(d) 修改 light_vision_text/Light_VQGan_Dalle/clip 文件夹下的 rank_photo.py 文件,将41和42行修改为:

self.tokenizer = AutoTokenizer.from_pretrained(
                'bert-base-chinese')

(e) 修改 light_vision_text/Light_VQGan_Dalle 文件夹下的 generate.sh,将 --fp16 注释掉:

fa8d809e75ed7f42ca0a8f92bfbeec10.png

在 test_dalle.txt 中输入进行图像生成的中文文本内容:太阳落山了

运行:

# single-gpu testing
./generate.sh <Light_VQGan_Dalle_model_path> <output_image_folder> <img_number> <generate_batch_size> <text_file_path>

# for example
./generate.sh ./dalle_small_model_pre_0924_lr1e-4_new_epoch7_data_point5761440.pt ./output_images 128 12 ./test_dalle.txt

生成的图像存储在

 light_vision_text/Light_VQGan_Dalle/output_images 文件夹下:

70a3a3520bdf68c02335200e5ef37221.pngc11a5bc0f75e69531ebd87a1f8083e3f.png

a2727a3b3b3d69f2a794da812fa2baf6.pngd049fbb40984784280d735e285814195.png

 
 

998601c1631d575700b879453aa9af79.png

 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群851320808,加入微信群请扫码:

93e86e0b6c794c9b73b933540f570176.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值