多模太大模型清单收集

javastart

已于 2023-01-24 13:32:56 修改

阅读量1.2k

点赞数

文章标签：人工智能 Powered by 金山文档

于 2023-01-19 11:48:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javastart/article/details/128733865

版权

文章介绍了阿里达摩院发布的多任务、多模态统一模型OFA，以及一系列基于文本生成图像的AI技术，包括HuggingFace的StableDiffusion、百度的文心一格ERNIE-ViLG2.0和3D模型生成如Magic3D和DreamFusion。这些模型和工具展示了AI在图像生成和3D建模领域的最新发展，部分已开源，部分仍处于商业阶段。

摘要由CSDN通过智能技术生成

AI大一统：阿里达摩院发布多任务、多模态统一模型OFA

功能：包括3类跨模态、单模态和zero-shot。具有文本到图像生成、图像描述生成（标题生成）、视觉问答、图像查找、图像分类等

源码地址：https://github.com/OFA-Sys/OFA

论文地址：https://arxiv.org/pdf/2202.03052.pdf

开源时间：22.03

阿里大模型网址：https://modelscope.cn/home

文本到图片生成演示：https://decoder.modelscope.cn/pcIndex

dall-e2 文本到图片生成

说明：商品化

厂家： OpenAI

谷歌的 Imagen 和 Midjourney产品

说明：商品化，使用的diffuser 模型

Stable diffusion 模型：Hugging Face发布diffuser模型AI绘画库

功能：文本生成图像

开源地址：

Hugging Face 网址：https://huggingface.co/yulet1de/stablediffusion2

开源时间:22.08

说明：上面是普通的模型，里面还有很多其他类型 diffusion 模型

5.oneflow 中文版和中英文版“太乙Stable diffusion” 模型

功能：文本生成图像

开源地址：https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion#without-docker

Hugging Face 网址-纯中文：https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1

Hugging Face 网址-中英文：https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1

开源时间:22.11

说明：上面是普通的模型，里面还有很多其他类型 diffusion 模型

5.英伟达Magic3d

功能：文本生成3d

是否开源：未发布代码

开源地址：

论文地址：https://arxiv.org/pdf/2211.10440.pdf

资料网址：https://deepimagination.cc/Magic3D/

开源时间:

发布时间：22.11

说明：3d 模型生成3d一般需要时间较长,资源较多

6.谷歌文本提示生成3D模型的DreamFusion

功能：文本生成3d

是否开源：

开源地址：

论文地址：

模型资料网址：https://dreamfusion3d.github.io/

开源时间:

发布时间：22.11

说明：声称不需要 3D 训练数据，也不需要修改图像扩散模型，证明了预训练图像扩散模型作为先验模型的有效性。

7.文本提示生成图片 disco-diffusion *****

功能：文本提示生成图

是否开源：是

开源地址：https://github.com/alembics/disco-diffusion

论文地址：

模型资料网址：https://dreamfusion3d.github.io/

开源时间:21.10

发布时间：21.10

说明：在github 找到的disco-diffusion，网上说google 要翻墙的免费的文本生成模型，这个不清楚是与google 的disco-diffusion 有没有关系，更新也比较快。

7.百度文本提示生成图片文心一格 ERNIE-ViLG 2.0 模型 *****

功能：文本提示生成图

是否开源：是

开源地址：https://github.com/PaddlePaddle/PaddleHub/tree/develop/modules/image/text_to_image/ernie_vilg

模型参数量：120亿

Hugging Face 网址: https://huggingface.co/spaces/PaddlePaddle/ERNIE-ViLG

模型参数说明：https://www.datalearner.com/ai-resources/pretrained-models/ernie-vilg2

论文地址：https://arxiv.org/abs/2210.15257

开源时间:22.10

发布时间：22.10

说明：具有文本生成图像和图像生成文本两种功能。效果远超 OpenAI 发布的 DALL-E 等模型。它是百度的方式，不是github 方式上面有模型的地址，目前不大明白？？？，使用需要请前往文心旸谷社区申请使用本模型所需的 API key 和 Secret Key，网址https://wenxin.baidu.com/user/key 这里申请。

midjourney文本生成图像

功能：文本提示生成图

是否开源：收费

网址：https://www.midjourney.com/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多模太大模型清单收集

AI大一统：阿里达摩院发布多任务、多模态统一模型OFA。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。