文字说明生成图像

最新推荐文章于 2024-01-18 13:13:52 发布

思考实践

最新推荐文章于 2024-01-18 13:13:52 发布

阅读量1.5k

点赞数 2

分类专栏：人工智能、机器学习、深度学习

本文链接：https://blog.csdn.net/weixin_43332715/article/details/119773518

版权

人工智能、机器学习、深度学习专栏收录该内容

106 篇文章 9 订阅

订阅专栏

OpenAI的DALL-E是一个基于GPT-3的小型模型，能从文字描述生成图像。它使用120亿参数，通过文本-图像对的数据集进行训练，不同于GPT-3的广泛数据集。尽管面临训练挑战，DALL-E能够以类似GPT-3的方式创建图像。此外，国内团队也在研发类似技术，计划在不久的将来发布Demo。

摘要由CSDN通过智能技术生成

OpenAI->DALL.E

OpenAI成功地训练了一个能够从文字标题生成图像的网络。它非常类似于GPT-3和图像GPT，并产生惊人的结果。

DALL-E是OpenAI基于GPT-3开发的一种新型神经网络。它是GPT-3的一个小版本，使用了120亿个参数，而不是1750亿个参数。但它已经经过专门训练，可以从文本描述生成图像，使用的是文本-图像对的数据集，而不是像GPT-3这样非常广泛的数据集。它可以使用自然语言从文字说明中创建图像，就像GPT-3创建网站和故事一样。

DALL-E与GPT-3非常相似，它也是一个transformer语言模型，接收文本和图像作为输入，以多种形式输出最终转换后的图像。

Input:“山上一只狐狸的特写”

Output:

WuDao->Cogview #咱国产的，真不错

作者：Phoenix Cat
链接：https://www.zhihu.com/question/438082738/answer/1664929807
来源：知乎

其实在dalle最早的博客放出来之前，我们也独立地想到了这个VQAE+Transformer的算法框架，只不过投入不够，进展不够快，另外就是训练大模型时有一些意料之外的困难（例如精度），最后我还是基本解决了（虽然DALLE文章出来之后，他们的解法和我们不一样，感觉自己想到的还更加优雅）。不过这种规模的工作被抢先了真的太伤了，估计得想点新的创新点才能发文章……文章发了之前暂时不太会和别人详细交流技术细节了。

欢迎关注

@北京智源人工智能研究院

在20号的发布会~到时候可能放一个Demo网站出来（文章可能还早TAT）

//-----------------原答案-------------------

太夸张了，我搞这个任务快半年了。。。他这个blog中介绍的做法跟我们现在的方法几乎一致（除了大一点），但是我们感觉单纯升到13B完全达不到这个效果。。。因为这个问题跟数据集强相关，想知道数据集。。。（可能这玩意和clip强耦合，需要很多前者的产品）总之就是非常绝望，感觉自己搞的根本没意义，螳臂挡车。。。

文章的链接是 https://arxiv.org/pdf/2105.13290.pdf

之前的demo页面仍然有效，但是依旧没有上线特别耗时的超分辨率和多次生成后选择的部分。

//----------------

Demo链接==> CogView图文生成。

//-----------------

Reference:

[1]DALL.E：https://blog.csdn.net/deephub/article/details/112301876

[2]:COGVIEW:https://github.com/THUDM/CogView

[3]:open AI地址：https://openai.com/blog/dall-e/

[4]:悟道AI：https://wudao.aminer.cn/

思考实践

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
4
评论
文字说明生成图像

OpenAI->DALL.EOpenAI成功地训练了一个能够从文字标题生成图像的网络。它非常类似于GPT-3和图像GPT，并产生惊人的结果。DALL-E是OpenAI基于GPT-3开发的一种新型神经网络。它是GPT-3的一个小版本，使用了120亿个参数，而不是1750亿个参数。但它已经经过专门训练，可以从文本描述生成图像，使用的是文本-图像对的数据集，而不是像GPT-3这样非常广泛的数据集。它可以使用自然语言从文字说明中创建图像，就像GPT-3创建网站和故事一样...
复制链接

扫一扫