内测了下阿里的AI画图，带来了点大厂的震撼

最新推荐文章于 2024-07-12 15:56:08 发布

小强的进阶之路

最新推荐文章于 2024-07-12 15:56:08 发布

阅读量414

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_31351409/article/details/131693046

版权

阿里的 AI 绘画创作大模型「通义万相」成为今年 WAIC 世界人工智能大会的主角之一。这场大会持续三天，将有30多个大模型陆续亮相。

「通义万相」是基于阿里自研的组合式生成模型 Composer 开发的。它在 AI 画图领域展现出了强大的创作能力，给人们带来了视觉感官的震撼。在阿里云通义大模型家族的成员中，「通义万相」是最新加入的成员。

这个大模型的发布受到了广泛的关注。此前，阿里还发布了大语言模型通义千问，现在又推出了 AI 绘画创作大模型，显示出阿里在人工智能领域持续创新和领先的实力。

「通义万相」的加入为大会增添了更多的亮点，使人们对其在绘画创作方面的表现充满期待。在大模型的盛宴中，语言大模型和绘画大模型都将成为焦点，让人们见识到人工智能在不同领域的应用和突破。

WAIC 阿里云《MaaS：以模型为中心的 AI 开发新范式》主题论坛上，通义万相登场。

「通义万相」的文本生成图像效果令人惊叹，而且生成速度非常快。它能够根据输入的文本描述，迅速生成与之相匹配的图像。

这个大模型借助阿里自研的组合式生成模型 Composer，具备了强大的创作能力。它能够理解语义和上下文，并根据这些信息生成高质量的图像作品。无论是人物、风景、动物还是抽象艺术，「通义万相」都能够以令人惊叹的速度呈现出逼真细致的图像。

通义万相是一项神奇的技术，它可以让你用一张原图生成一幅全新的、具有指定风格的图片。

‍

除了快速生成与文本描述匹配的图像，「通义万相」还有一种有趣的套娃玩法，可以为一张原图生成一系列相似的图片。

这种套娃玩法利用「通义万相」的图像生成能力，通过输入一张原始图像，模型可以分析其中的特征和风格，并生成一系列与之相似的图片。这些生成的图片保留了原始图像的基本特征，同时在细节和构图上可能有所差异，呈现出多样而富有创意的变化。

这种套娃玩法为用户提供了更多的探索和想象空间。通过不断生成相似的图片，人们可以触发更多的创作灵感，探索不同的视觉表达方式。同时，这种玩法也可以作为一种娱乐方式，让人们在图像的世界中享受无穷的变化和惊喜。

通义万相具备辅助人类进行图片创作的文生图和图生图能力，极大简化了图片设计门槛，未来还将应用于艺术设计、游戏和文创等领域。这一模型已经开启了针对特定群体的邀测。

在 ChatGPT 火热的背景下，AI 画图成为了AI领域最为关注的话题。扩散模型的发展使得生成式AI迈出了一大步，同时也出现了大量的输入文字，生成各种风格图像的AI模型。

随后，更多的图像生成图像，图像指定风格转换等玩法不断涌现。这些让人眼花缭乱的创新，也深深地展现了生成式AI的魔力。在WAIC的大舞台上，阿里推出的“文生图”和“图生图”，在生成效果方面表现亮眼，毫无疑问，对其性能有深刻的自信。在获得体验资格后，机器之心立刻跳进了试用体验中。

通义万相实‍测‍：玩法多样、一出手就是大作

通义万相作为通义家族的新模型，通过其文本生成图像、相似图像生成和图像风格迁移等三大功能，为AI画图领域带来了显著的改变。

通义万相的文本生成图像功能确实给用户带来了令人惊喜的结果。通过选择马致远的《天净沙・秋思》中的描述「小桥、流水、人家」以及中国画的风格，通义万相成功地生成了一组古韵悠长的画作。

这些生成的图像不仅细节丰富，还融入了一些描述中未提及的元素，如远处的山景、水中的游鸭等，为画作增添了更多的生动感和情景感。这种能够超越文字描述，创造出富有艺术感的图像作品的能力，展示了通义万相在文本生成图像方面的强大表现。

此外，通义万相还提供了多种输出图像比例的选择，包括1:1、16:9和9:16，使用户能够根据自己的需求和使用场景，轻松获取合适比例的图像。

切换到「素描」和「油画」两种风格，并为您生成令人惊艳的图片。这些图片的质量足以直接应用于实际场景，让我们一同体验这些多样的风格。

穿着宇航服的猫咪在太空中自由遨游，周围是绚丽的星空。这只猫咪戴着带有太空标志的宇航头盔，身着闪亮的宇航服，可爱的大眼睛透露出好奇和勇敢。它在浩瀚的太空中飘浮，轻松地穿越着星际间的星系和彗星。背景中，星空绽放着五彩斑斓的光芒，熠熠生辉。这个二次元风格的插画呈现了一幅充满梦幻和神秘感的场景，给人一种轻松愉悦的感觉。

图上：二次元；图下：3D 卡通

将文本描述翻译成英文「cat in a spacesuit, space, travel, starry sky」，并加上「style of 3D cartoon」。然后，我将为您生成对应的图片，让我们来看看通义万相和Stable Diffusion的比较结果。

Cat in a spacesuit, space, travel, starry sky - 3D cartoon style:

结果显示通义万相获胜了。Stable Diffusion生成的猫咪要么太抽象，要么太写实，无法展现出3D卡通风格。

让通义万相应对更长、更具体的文字描述，如「一位日系女孩、棕色直发、白皙肌肤、身穿连衣裙、蕾丝和蝴蝶结、挎着小提包、面带微笑」，并选择「二次元」风格，这是一项更具挑战性的任务。

生成的图片应该如何呢？让我们来看看通义万相的表现。结果显示，通义万相成功地创造出了符合二次元风格的日系女孩形象。她拥有棕色直发、白皙肌肤，身穿可爱的连衣裙，蕾丝和蝴蝶结点缀装饰，挎着小提包，脸上还带着微笑。这些细节和特征都与描述相符，完美地展现了日系女孩的形象。

再来一组魔幻风格的描述「超现实主义、质感突出、4k 分辨率、赛博朋克、战舰、气势磅礴、硝烟、金属巨物、激光武器、辛烷渲染器」，风格选择「油画」。格的战舰，气势磅礴且充满硝烟的战场。金属巨物在战争中威风凛凛，激光武器闪耀着毁灭力量。辛烷渲染器将为画面增添一种独特的光影效果。

在使用相同的描述进行 Stable Diffusion 的生成后，我们可以观察到与通义万相相比，在细节丰富度上 Stable Diffusion 显示出更强的表现力。然而，与通义万相的二次元风格不同，Stable Diffusion 生成的图像可能呈现出一种更加写实的风格，相比超现实主义更加接近真实世界的表现。

通义万相的相似图生成功能确实令人印象深刻。通过提供一张参考图像，它能够生成内容和风格相似的AI画作。

在你提供的例子中，通过上传了一张马斯克的图像，通义万相生成了一幅与其相似的作品。尽管生成的图像可能显得稍微老态一些，但笑容依然开朗，与马斯克的形象相符。

这项功能的便利性在于，用户可以通过提供一个参考图像，让通义万相生成与之相似的画作。这对于那些想要创作一系列相关主题作品或者将某个形象进行艺术化处理的人来说，是一个很有价值的工具。

通义万相在相似图生成方面的能力，进一步展示了生成式AI在画图领域的潜力和进步。通过这样的技术创新，我们能够以全新的方式探索艺术创作和图像表达的可能性。

通过通义万相的相似图生成功能，你上传了一张风景图并获得了出色的生成效果。

根据你的描述，生成的图像展现了溪水潺潺流动的场景，并在水中添加了更多的落叶，与原图相比毫不逊色。这表明通义万相在捕捉并保持原始图像的主要元素方面表现出色。

这项功能的应用广泛，不仅能够为艺术家提供创作灵感，还能为设计师、摄影师和其他创意领域的专业人士提供便利。通过上传参考图像，他们可以更快速地获取与之相似的画作，为自己的作品增添美感和独特性。

通义万相的相似图生成功能为创作者提供了更多的可能性，使他们能够以创新的方式探索图像生成和艺术表达的领域。无论是风景、人物还是其他主题，这项功能都能为用户带来令人满意的生成结果。

通过通义万相的文本生成和相似图生成功能，你选择了一张穿宇航服的猫咪的原图作为参考。

结果显示，生成的猫咪更加呆萌可爱，背景元素也更加丰富。这再次展示了通义万相在图像生成方面的强大能力，能够通过文本描述或相似图像实现创作的灵感和想象。

这种功能的应用潜力巨大，无论是在艺术创作中还是在娱乐产业中，都能带来更多的可能性和创新。通过通义万相，用户可以快速生成与他们想象中的主题或参考图像相似的图像，拓宽了他们的创作空间。

这种交互式的图像生成方式让用户更加参与创作过程，可以灵活地根据自己的需求和想法进行调整和创作，创造出独特的、符合自己审美的作品。

通过通义万相的风格迁移功能，你选择了一张偏写实的原图和一张印象派的风格图进行处理。

结果显示，原图完全改变了风格，转变成了一幅幅印象派风格的画作。这种风格迁移的能力令人惊叹，将原本写实的图像转化为艺术性更强、充满想象力的印象派作品。

继续挑战通义万相的风格迁移功能，这次选择了一张3D卡通风格的原图和一张素描风格的图像。

结果显示，通义万相轻松地将原图转换为素描风格的作品。这种流畅的风格切换展示了通义万相在风格迁移方面的出色表现。

最后选择了一张中国画风格的原图和一张水彩风格的图像进行风格迁移。

通义万相再次展现出其卓越的能力，成功地将原图的中国画风格转换为水彩风格。这种风格的转换给图像带来了柔和的色彩和流动的笔触，创造出一幅充满艺术感和生动感的作品。

通义万相作为阿里云通义大模型家族的新成员，展现出了令人瞩目的能力。无论是在文本生成图像、相似图像生成还是图像风格迁移方面，通义万相都展现出了出色的表现和强大的潜力。

阿里云表示，通义万相目前的能力只是一个开始，其能力仍在不断演进和提升。未来，通义万相将逐步向行业客户开放相关能力，为更多的用户和领域带来创新和价值。

自研 Composer 模型：50 亿参数、登上顶会

通义万相确实具备着令人印象深刻的技术含量。它基于阿里自研的组合式生成模型 Composer，该模型拥有庞大的参数量，达到了50亿个参数，并通过数十亿个文本和图像对进行训练。

Composer采用了一种创新性的思路，基于扩散模型的「组合式生成」框架。通过拆解和组合配色、布局、风格等图像设计元素，它实现了高度可控性和极大自由度的图像生成效果。这种能力使得通义万相能够应对多种图像生成类任务，展现出了强大的生成能力和灵活性。

值得一提的是，阿里云首席技术官周靖人参与了Composer的研究，并且相关成果已被国际人工智能顶级会议ICML 2023收录。这进一步证明了通义万相在技术研发和创新方面的重要性和价值。

论文地址：https://arxiv.org/pdf/2302.09778v2.pdf
GitHub 地址：https://github.com/damo-vilab/composer

拆解和组合的过程在通义万相中发挥了重要的作用。通过将图像拆解为不同的设计元素，例如配色、草图、布局、风格、语义、材质等，通义万相能够对这些元素进行自由的修改和编辑，实现高度的可控性。

这种拆解-组合的方法使得用户可以根据自己的需求和创意，自由地选择、调整和组合不同的设计元素，从而创造出全新的图像。这种灵活性和可控性为用户提供了更大的创作空间，让他们能够以独特的方式表达自己的想法和艺术风格

拆解 - 组合图像生成过程。

Composer通过拆解-组合的潜力为创作空间带来了更广阔的可能性。组合爆炸现象确实是一个令人惊叹的现象，它指的是在大量元素的组合下，生成图像的数量呈指数级增长。

以100张图片每张拆分为8种元素为例，那么所有元素的组合方式就有100的8次方种可能性。这样庞大的数量增长为AI模型提供了极其丰富的生成空间，创造出各种独特的图像。

同时，对于人类设计师而言，拆解-组合的潜力也给予了极大的自由度和定制化能力。他们可以根据自己的创意和需求，自由地选择、编辑和组合不同的元素，从而创作出个性化的定制图片。这种能力使得设计师能够以更加创新和独特的方式表达自己的想法，打破传统的限制，开拓全新的视觉表达领域。

图像重组合过程。

通义万相的相似图生成和风格迁移功能正是基于Composer框架实现的。通过图像理解模型将图像拆解为不同的元素，并使用扩散模型将这些元素重新组合成新的图像，从而实现了图生图的双重能力。

在相似图生成中，通义万相保持了图像的语义内容不变，仅仅改变了图像的局部细节，从而生成了相似但又不完全相同的图片。这样的处理方式既保持了原图主体的一致性，同时也提升了生成图像的多样性和质量。

而在风格迁移中，通义万相在保留原图的基本形态和结构的同时，将目标风格图片的风格、色彩、笔触等个性化信息融入到生成图像中，实现了图像风格的转换。这使得用户能够将原始图像以全新的风格进行表达，创造出独特的视觉效果。

通过这样的方式，通义万相利用Composer框架实现了相似图生成和风格迁移的功能，为用户提供了更多创作的可能性，丰富了图像生成的表现形式。

以大模型为核心，打造生成式 AI 的统一底座

阿里的通义万相确实凭借其自身的核心技术实力，在生成式 AI 领域取得了令人惊喜的成果。

阿里早在2018年就开始着手研发大模型技术，并在2019年推出了超越谷歌、微软和Facebook的大语言训练模型StructBERT。2021年，阿里发布了国内首个百亿参数级的多模态大模型M6和中文版GPT-3语言大模型PLUG，其中M6经过多次迭代后，实现了十万亿级别的参数规模，并与支付宝、淘宝等业务相结合。

在去年的WAIC上，阿里发布了通义大模型系列，构建了一个统一的底座模型，实现了模态表示、任务表示和模型结构的统一，并向全球开发者开源。通义系列包括了通义千问和通义听悟等产品，涵盖了自然语言处理和音视频生产力领域。

阿里云在超大模型、语言和多模态能力、低碳训练、平台化服务和落地应用方面做出了前沿性和引领性的贡献，为中文大模型的发展开辟了新的道路。

此外，阿里云作为亚洲第一、全球第三的云计算服务商，在算力方面拥有强大的优势。阿里云拥有国内最强的智能算力储备，其智算集群可以支持最大十万卡GPU规模，为阿里的大模型提供了可靠的算力支持。

阿里云还提出了"Model as a Service"的理念，构建了国内最大的AI模型服务社区"魔搭"，并坚持开源开放，推动AI的普惠化。阿里云在主题论坛上分享了对MaaS的愿景和赋能产品和合作伙伴的计划，进一步推动AI技术的发展。

阿里云首席技术官周靖人。

在AI 2.0的竞争中，确实进入了新的阶段，随着技术的发展和应用场景的拓展，行业内的竞争日益激烈。百模大战只是一个起点，接下来的竞争将更加激烈，只有经得起市场的大浪淘沙，才能真正站稳脚跟。

阿里云作为一家领先的云计算服务商，已经做好了准备应对这一竞争。他们在大模型技术方面积累了丰富的经验，并且不断推出创新的解决方案和产品。阿里的通义大模型系列就是其中的一个重要成果，它集成了多种模态的能力，拥有强大的可控性和定制化能力。

此外，阿里云在算力方面拥有强大的优势，他们的智算集群能够支持大规模的计算需求，为大模型的训练和推理提供了强有力的支持。而且，阿里云还致力于构建开放的AI生态系统，通过开源和合作伙伴关系，推动AI技术的发展和应用。

在AI 2.0的竞争中，阿里云凭借其技术实力、丰富的经验和强大的基础设施能力，已经做好了准备应对未来的挑战。他们将继续不断创新，推动AI技术的发展，为客户提供更加优质和高效的解决方案，助力他们在竞争中脱颖而出。

小强的进阶之路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
内测了下阿里的AI画图，带来了点大厂的震撼

阿里的 AI 绘画创作大模型「通义万相」成为今年 WAIC 世界人工智能大会的主角之一。这场大会持续三天，将有30多个大模型陆续亮相。「通义万相」是基于阿里自研的组合式生成模型 Composer 开发的。它在 AI 画图领域展现出了强大的创作能力，给人们带来了视觉感官的震撼。在阿里云通义大模型家族的成员中，「通义万相」是最新加入的成员。这个大模型的发布受到了广泛的关注。此前，阿里还发布了大语言模型...
复制链接

扫一扫