AI绘画（以后也叫AI视频）_ai绘画csdn-CSDN博客

本文链接：https://blog.csdn.net/m0_59235245/article/details/132578527

大概半年前，AI 绘画工具 Disco Diffusion 从 Text-to-Image 开发社区和设计行业，火到了普通用户的视野中。即便它界面简陋，满屏英文和代码，也“劝退”不了人们。因为对那些没有任何美术功底的他们来说，往输入框写一小段字，就能指导 AI 生成画面足够惊艳的画作。[一夜之间，四家科技巨头接连公布AIGC最新进展，加上前不久刚刚发布的GPT-4、微软365 Copilot以及百度文心一言等产品，今天谷歌也高调宣布Bard，这场“AI战争”已经进入了白热化阶段。除了聊天机器人以外，AIGC另一个大热方向便是AI绘画。这也便是本文需要阐述的内容。]

人工智能绘画，神秘、绚丽、深沉、复杂、时代感强，体现出了非凡的想象力。象征未来绘画的发展方向。（图文也是传播重要的途径，所以图片生成显得尤为重要）

在国内的一些平台中，也有AI作画的网站，只要画上几块钱，就能得到一副AI绘画作品。不过作品的质量良莠不齐，有的惟妙惟肖，也有的画的很抽象。但这仍然不妨碍大家对AI作画的喜爱。

AI作画其实并不是新兴的产业，早在计算机诞生之后就已经有艺术家在研究这项技术了，而且随着科技的不断发展和人工智能的进一步升级，AI作画的准入门槛也变得更低，受众人群也有了更广泛的基础。

目前市场上AI作画产品层出不穷，百家争鸣，也有套壳，可圈可点。比较出名的有：

【国内的】

抖音AI头像和图文一键生成工具
百度文心一格的根据条件自动生成图画
百家号根据图文一键输出短视频

【国外的】

Adobe公司推出的Adobe Firefly （深度和Adobe Photoshop等产品进行集成和捆绑）
INValid英伟达退出的get3D、canvas等图像生成工具
AI绘画工具Midjourney V5正式上线

本文关键词：canvas、firefly、bard、chatgpt、bing、文心一言、AIGC、get3D

AI绘画是现在非常火热的 AI领域。而说到 AI的绘画，可能很多人还不太了解。本文将从 AI的绘画原理、 AI绘画模型三个方面来介绍当前 AI最热门的几个绘画领域的知识。在今天这篇文章中，我们将详细介绍 AI绘画的原理、画质、使用场景等知识。

从城市分布上，绝大多数用户还是分布在一二线城市，其中北京占8.7%，深圳占7.8%，但青岛出人意料的排在了第四，占到了6.1%。南方城市占绝大多数，北方城市较少。

在受众用户的行业分布上，调查结果和我们预期差异较大，美术和设计工作者仅仅只占 24.2%（排名第二），排名第一的行业是线下行业（26%），排名第三的是互联网行业（24%）。

在使用AI绘画的具体方式上，38% 的用户只使用在线服务，使用自己显卡的用户占到16%，即便如此，依然有21%的用户表示，虽然目前自己使用在线服务，但未来希望使用自己的显卡，与之相反，现在使用显卡，并表示未来会使用在线服务的用户，只占 4%。

绘画原理

在很多人眼里, AI的绘画原理是类似于人类的写生，不过这里所说的“AI”不是普通的 AI,而是“AI+ CAD”。在传统的 CAD软件中, CAD是用来绘画的，在 CAD软件中，模型首先被输入到电脑中，在电脑中通过投影功能将模型投影到空间中，再经过多维空间分析后，将得到模型想要的图案和形状。CAD可以通过生成与真实物体相似或不同的物体来表示其形状。

绘画模型

在 AI方面, AI模型(Intelligent Machine)的含义是 AI的自动建模, AI自动建模指的是人工智能系统中的绘画模型的模拟，即人工智能系统在模拟绘画的时候，对各种图像进行训练，从而获得自己的所画的图片，并将这些图片进行合成处理，使之成为具有一定水平的绘画。目前, AI绘画主要分为两大类: AI自然语言理解模型和 AI自适应图像识别模型。自然语言理解模型(NLP)能够自动理解人的语言而不是计算机语言，它利用图像中的每个像素来描述所画的对象。而自适应图像识别模型(ALP)能够利用图像中识别出物体位置和角度的数据来对图像进行分类和修改。ALP和 ALL具有相同的优点，即能够根据数据中颜色或像素不同而改变其颜色或角度。ALP识别了图像中每个物体的位置和角度变化对于图像的影响并进行自动优化。

AI绘画技术发展的简要脉络—算法模型演变：

GAN时代—>CLIP 跨模态的图文模型(VQGAN+CLIP 或StyleCLIP)—>Diffusion 崛起—>Stable Diffusion(latent diffusion模型) —>6pen—>GPT时代

使用场景

当前 AI技术应用在不同的领域中，能够运用到的使用场景也不尽相同。比如在传统的绘画领域中，我们常常需要对物体进行各种处理才能让整个画面呈现在眼前，所以需要通过绘画模型进行优化，然后再对画面进行调整。而在 AI绘画领域，其应用场景更加广泛，比如在 AI图像识别方面，我们可以利用其深度学习的特性来处理人脸等物体的3D模型识别。

使用效果

AI的绘画主要包括两个部分，一个是对图像的分析与判断，另一个是图像的处理与还原。人工智能中的图像分析与处理技术就是利用计算机视觉去提取物体的纹理信息，然后通过神经网络对其进行深度的图像分类和处理。而在 AI绘画方面，人工智能也主要应用在图像的识别与还原。

根据使用者的输入条件（文字/语音）+ 调用大模型已训练的参数（语言语义语法） + 根据图形图像渲染库中已有的画风模型（预先设置的水墨画/卡通形象/抽象派/写实风）+通过对CV算法的整体调优以及修编图 = 最终输出一副具有AI色彩的图画 <如果不满意还可以多生成一次，选择使用者最满意的那张，同时也增加了一次机器学习真实数据的机会>

发展现状

目前，通过深度学习和图像处理技术, AI已经在图像识别、图像合成、人脸识别、视频分析、语音识别等多个领域都取得了巨大进步。随着深度学习技术的快速应用，将给人工智能带来更大的想象空间，尤其是在图像识别、视频分析等领域，将会有巨大的进步。但在 AI绘画方面, AI还需要不断的探索，提升效率，从而满足更多领域的需求。

怎么玩转

博主就市场一些软件工具"根据文本提示生成图像，并提供数百种样式供设计师调整"，简单列举一些基本玩法和简单自评：

Midjourney虽好，但使用起来还是有些门槛，包括硬件支持、调教数值等等，另外还需要用户有一定的美术素养。（该工具和文心一格一样需要用户自己去调参）
对于普通用户来说，想体验简单的AI创作怎么办，Adobe公司官方表示；“咱直接集成到PS里（最新付费版）！” 据可靠消息，该系列的AI工具统称为Firefly(Express已经上线)。
从演示来看，Firefly虽然不如Midjourney来得惊艳，但实用性拉满。对于普通用户来说，如果熟练掌握这套工具，足以应付日常需求。Adobe也表示，AI并不会取代创意人才，而是提升他们的竞争力和创造力。
英伟达宣布与多家云服务供应商合作，推出英伟达DGX Cloud，使得企业不需采购或拥有服务器，只需通过云服务供应商合作托管的DGX Cloud基础设施，通过浏览器，即可取得超算计算机级的AI运算效能。
AI 绘画工具进化的速度，在这半年远超人们想象。Disco Diffusion 之后，搭在 Discord 群聊上的 Midjourney、OpenAI 擅长写实的 DALL·E 2、开源的 Stable Diffusion 等工具涌现，它们更强大，更用户友好，生成一张图的时间甚至压缩到了数秒。

AI 绘画的热度被一步步推高。在国内一些电商平台，你甚至可以看到有零散商家在卖教程。

今天，我们整理了 3 个对普通用户来说最容易上手的工具：它们中一个专于生成二次元画作；一个社区氛围浓厚，生成图艺术感极强；一个是国内团队的产品，这回给力，你用中文对就是咱们的母语中文（非英文）尽情挥洒创意！

Stable Diffusion

Stable Diffusion 开源的潘多拉魔盒在 Stable Diffusion 之前，开源方案里最好的AI绘画实现毫无疑问是 Disco Diffusion

特点：被认为是最强的 AI 绘画工具，已完全开源，市面上还有很多”魔改版“，比如专用来生成二次元人像的 Waifu Diffusion；

事前准备：以下介绍的是 Stable Diffusion 的在线版本 DreamStudio，这种方案对设备没有要求，只要用浏览器打开 https://beta.dreamstudio.ai/dream 即可。

相比 Disco Diffusion，Stable Diffusion 这个在线工具的界面非常简洁、友好，你打开网站后注册，然后在底下的输入框写好描述语句，点击“Dream”就能一键生成，等待时间仅为数秒。

描述词为 A dream of a distant galaxy（图像主体）, by Caspar David Friedrich（艺术家）, matte painting trending on artstation HQ（绘画风格）丨界面截图

界面右侧还有一系列的调节选项，从上到下分别是：

Width、Height：生成图的长宽尺寸；

Cfg Scale：大概可以理解为是图像和描述词（prompt）的匹配程度，高于 20 容易有失真效果；

Steps：模型生成图片的迭代步数，每多一次迭代都会给 AI 更多的机会去比对描述词和当前结果，默认值为 50；

Number of images：生成图的数量；

Sampler：扩散去噪算法的采样模式；

Seed：随机种子，系统每次产生的随机种子都不同，所以即使你原封不动搬来了艺术家给的描述词，也无法生成相同的图片，但如果他给了你特定的随机种子码，就能生成。

基本的配置搞定后，开始做画作生成中最关键的一步——写描述词。该怎么写呢？官方提供了一份入门教程：

先输入你图像的对象、主体，比如一只熊猫、一个持剑的战士，如果只是如此简单的描述，生成的风格会非常随机，所以需要描述风格来加以限定；

常被使用的风格有写实、油画、铅笔画、概念艺术等，你可以指定你要的是一幅画（a painting of + raw prompt）还是一张照片（a photograph of + raw prompt）；

加上风格鲜明的艺术家关键词，来进一步明确和加强生成图的风，比如加上达芬奇、米开朗基罗、莫奈等，另外，官方还建议尝试混合多个艺术家，这或许可以融合成更让人惊叹的效果；

还可以加上一些特定的描述词，来完成最后的润色。比如，你如果让画面有更逼真的光照，可以带上“Unreal Engine”，建议的关键词还有 surrealism（超现实主义）、sharp focus（有锐利的对焦）、8k，甚至是“the most beautiful image ever seen”。

在线版本目前调教功能偏弱，比如无法批量生成图像等，如果你想有更好的生成体验，可以将已开源的 Stable Diffusion 部署到自己的电脑上，配置要求 RTX 2060 显卡等 6GB 显存（及以上）显卡等。这里不展开了。

自 Stable Diffusion 开源以来，市面上迅速出现了它的各种“魔改版”，其中近期热度最高的要数 Waifu Diffusion。Waifu 指漫画、动画、游戏中的一些女性角色，有些玩家、观众喜欢这类角色到了会将她们当成妻子。可见，这是一个专于生成“纸片人”的模型。

只要打开 https://colab.research.google.com/drive/1_8wPN7dJO746QXsFnB09Uq2VGgSRFuYE#scrollTo=1HaCauSq546O，然后点击上方的“全部运行”，等几分钟就能看到描述词的输入框。

界面截图

至于描述词参考，可以在 Twitter 上搜索“waifudiffusion ALT”，之后你就会看到玩家们的图像，图像上如果有 ALT 标识，点开即可找到生成图的描述词。

界面截图

在 Stable Diffusion 上试验 AI 作画的人太多了，各渠道累计日活用户超过 1000 万。创始人 Emad Mostaque 说，“我们迟早会到达每天生成 10 亿张图片的阶段，尤其是当动画生成的功能被解锁后。”

现在，甚至有人建起了 AI 作画关键词相关的搜索引擎，比如 KERA。

界面截图

目前，KERA 已经收录了百万条关键词，比如搜索“Elon Musk”就能得到以上结果，如果对某一个结果感兴趣，还可以点进去看看对应的描述语句。

收费标准：有大概 200 张的免费生成额度，之后需要付费购买点数（生成越复杂，尺寸越大，消耗的点数越多）

版权要求：可以商用自己创作的图像，但图像如果是通过 DreamStudio 生成的，就自动变成了 CC0 1.0 授权，这样，服务提供商 Stability.ai 也能处理你的图像，无需付费甚至不会经过你同意，也会一并成为通用公共领域 royalty-free 的图片资源。如果是你自己部署了开源的 Stable Diffusion，消耗的是你自己的 GPU 资源，那著作权都归你所有。

Midjourney

特点：可以边聊天边生成，社区氛围浓重，画作艺术感强；

事前准备：备好电脑，以及注册一个通讯软件 Discord 的账号，打开 https://discord.gg/midjourney。

点击上方链接进入官方服务器后，你在左侧频道列表中找到任意一个 #newbies 频道进入，然后在对话框输入/imagine，在其后出现的填空框里输入描述词，按下回车。Midjourney bot 会在 60 秒内生成 4 张图像。

如图所示的红框内，是属于我们 #newbies 的频道 | Midjourney 页面截图

图像生成后，下方会附带 4 个“U”和 4 个“V”选项，U 代表 upscaling（提升清晰度），V 代表 variations（基于已生成图像的风格再生成四张不同的图像）。你可以点击它们进一步优化图像。

描述词为埃德加·艾伦·坡的塔罗牌，新艺术风格，安妮·麦卡弗里 --s 1250 | Midjourney 页面截图

Midjourney 设在一个人声鼎沸的聊天室，初次接触 Discord 的人或许会有些晕头转向，这里有几点需要注意：首先，你在公开的频道里试用时，生成结果是所有人可见的！同时，你的请求可能会混入快速变化的信息流，不要走开！如果真的找不到了，不要慌张，点击右上角的收件箱找回你的请求。

任意时间点进去，都有很多人在跟你一起玩 | Midjourney 页面截图

对于描述词，官方给出了一些建议：

使用已经存在大量视觉图像的物体，比如 Wizard（巫师）、Angel（天使）、Rocket（火箭）等；

使用风格、艺术家、绘画媒介作为提示词，比如赛博朋克、达利、吉卜力、水墨画、雕塑等；

避免否定句，因为模型通常会无视它，比如当你输入“一顶不是红色的帽子”，模型看到的更可能是“帽子”、“红色”；

使用单数或具体数字，而非“一堆”、“很多”、“一些”；

避免空泛概念，你知道的，就是老板开会时经常会说的那些，以及甲方的需求。

火龙，但是建筑草图风格

真正的“高玩”还可以加入一些“黑话”，也就是一系列以“–”为前缀的提示词为图片设定条件。比如，输入–ar 16:9”，图片比例会变成 16 乘 9；输入“–s”加一个数值，你可以决定 AI 要在风格化这条路上走多远，数字越大越离谱，–s 60000，天知道会发生什么！”

实在写不动描述词了，或者某张图片符合你想要的感觉，也可以直接把图片链接写进描述词里。

看看别人是怎么写的是个很好的学习渠道。当然，你也可以随时在 #prompt-chat 频道礼貌请教：我想生成特定样式的图像，该用怎样的提示词呢？或者常在官方画廊（https://www.midjourney.com/showcase/）那里逛逛，可以参考自己与别人生成的作品。

与别的模型相比，Midjourney 以其艺术性闻名。有人如此评价，“Midjourney 就像一个有它自己风格的艺术生。”身上附着着成百上千艺术家先辈的魂灵。

从生成结果也能看出，不管你输入什么，Midjourney 都更倾向于给你输出一幅绘画一样的图像，而不是假照片。比如，同样是面对描述词“女孩发现生命的意义”，Midjourney 和 DALL-E 得到的分别是以上的样子｜https://dallery.gallery/midjourney-guide-ai-art-explained/

这也让它备受美术领域青睐，此前广受争议的在数字艺术比赛上获奖的作品《太空歌剧院》就是由 Midjourney 生成（后用 Photoshop 润色）。

《太空歌剧院》｜Jason Allen

新平台层出不穷的情况下，让 Midjourney 仍能保持吸引力的是它的超级社群——目前人数已经超三百万，远超原本占据头部的 Minecraft 和《堡垒之夜》。在红杉总结的当前 AIGC 创业图谱中，只有 Midjourney 同时具备了图像生成和消费者 / 社交两项特性。

社群里，人们会自发地为新手答疑解惑，互相称赞，大方分享自己使用的描述词。官方也会定期发起主题创作，举行 Office Hour。用创始人的话说，他想让人们体验“一起做一件事”的快乐：你“画”出一只“狗”，有人会添一笔把它变成“太空狗”，紧接着有人把它变成“阿兹特克太空狗”……

你能不能在 Midjourney 里用中文呢？也不是不可以，但它似乎不是很懂。

收费标准：任何人都可以免费在公共频道生成 25 张图片，之后继续使用需要会员订阅。基础会员价格为每月 10 美元，可生成 200 张图片；标准会员为每月 30 美元，生成次数不限。

版权要求：公共频道里生成的作品默认为 CC BY-NC 4.0 版权，意味着他人可任意使用或改动你的这些作品。付费用户可以任意商用生成的图片，但有一个例外，如果是一家年收入超 100 万的公司在使用，就需转而订阅企业会员。

6pen

特点：支持用中文描述，还列出了很多艺术家和风格限定词供参考；

事前准备：在 iOS 平台下载 app，或者打开 https://6pen.art/ 直接在网页生成。

Disco Diffusion 大火之后，国内一些团队开始尝试降低其使用门槛，将它产品化，比如说重整 UI、提供云端算力、对模型做 finetune（微调）等。6pen 就是其中一支团队。

6pen 基于市面上已有的开源模型 Latent Diffusion 和 Disco Diffusion，做了自研模型，还根据生成速度和体量，分别研发了擅长小体量、简单场景的南瓜模型，和擅长复杂场景，但响应速度较慢的西瓜模型。官方表示，相比原版，自研模型比较重要的优化部分，是提高分辨率和支持中文。

6pen 很自信，在合适的文本描述和风格修饰下，他们相信 6pen 可以实现不输于 Midjourney 甚至 DALL·E 2 的效果。

界面简洁，引导细致，还列出了很多艺术家和风格限定词供参考丨app 界面截图

官方自己有一份非常详细的使用教程，手把手教，亲切地像生怕你学不会的老母亲。

我们整理了这样一些建议：

你可以直接使用中文描述！

描述词要具体，讲出你要的物体和它的特征，但物体不要太多，两到三个就好；

放弃描述情绪和事件，模型不会懂什么是“她爱不爱我”并画下来；

视角、细节和纹理、物体占据画面的大小、色调、画面特点、年代、渲染 / 建模工具，这些是模型可以处理的信息；

如果点选的参考艺术家画过很多裸体，会有概率出现纯黑的图片（系统判定你在“搞黄色”）；

描述词之外，可以加入画面类型、艺术家、尺寸等信息，他们有点像滤镜，能让你的画看起来更像那么回事儿；

如果你有绘画基础，可以自己画底稿，再由 AI 在你的基础上描绘具体场景，底稿建议使用色块和形状而非纯线稿，因为 AI 不会自动填色。

官方给的描述词案例丨界面截图

此外，6pen 还会返回每个生成过程的迭代图，Loss 曲线，甚至电量消耗等数据，让用户更好了解生产过程，帮助改进。

在等待生成期间，6pen 会让你为一些生成作品投票，看看哪张作品效果更好。这时你会觉得自己像一个给 AI 的打工者，帮助模型升级进步。

6pen 的创始人王登科指出过 AI 绘画技术目前的不足，比如人的肢体（主要是手指）和眼球效果较差，多主体对象生成效果差，也无法进行有逻辑延续的故事性生成。

收费标准：可以免费排队生成，也可以付费快速生成，价格为 0.1 元起；

版权要求：6pen 的自研模型都采用 MIT 协议开源，生成出来的图片版权完全授权给生成者本人。6pen 也支持采用 CC0 协议的 Stable Diffusion，这时产生的作品版权就不由生成者独享了。生成者如果使用了还在世的艺术家作为画面参考，且生成作品的风格与艺术家相似，也可能存在版权争议。同理，如果使用了参考图，且参考图并非原创 (如摄影、绘画)，那么生成的结果也存在版权争议。【这个也是一种隐患和争议，AI生成的文章、图片和视频等内容的版权未来应该怎么划分法律边界怎么定义是一个亟待解决的问题】

目前，绝大多数产品化的 AI 绘画服务几乎都通过按照生成收费的方式获得收入，如下：

Stable Diffusion
- 模型开源免费
- Dream Studio 及 API ：0.01 欧元 / 基础调用
- 据统计，2022 年 9 月后国内涌现的AI绘画产品，95% 都使用了 Stable Diffusion，但是按照 Stability License 展示必要信息的，只有不到 10 %
Midjourney
- 10 美元 / 月：200次快速生成+不限量的排队生成
- 30 美元 / 月：900次快速生成+不限量的排队生成
- 4 美元 / GPU小时
- 600 美元 / 年企业套餐
Dalle
- 0.13 美元 / 生成
6pen
- 不限量的免费排队生成
- 付费快速生成：0.1人民币起
文心一格目前需要金币有免费额度，详见官网文心一格 - AI艺术和创意辅助平台

可以看出，商业化的 AI绘画的服务目前几乎不区分 ToB 或 ToC ，更多是提供按量或按需付费的服务，无论是企业还是个人用户都可以使用。这种收费模式是因为这些原因：

AI生成使用显卡服务器，维持免费使用需要付出巨大成本
缺乏生成图之后的闭环，无法从免费用户获得其他方面的收入
受限于尚处在争议中的版权及其它道德因素，其它商业化手段还有待探索

ToB 的可能性

AI绘画在 ToB 领域天然拥有更多可能性，但受限于模型质量，版权争议，以及目前较早期的技术阶段，还很少有公开落地的案例，但我们认为在下列方向，可能会在未来涌现出更多 ToB 的成功案例：

广告行业
ToB 素材库
设计师/美术工作者辅助工具
营销定制服务
线下实体结合服务
元宇宙等线上虚拟空间

【四件套组合】ChatGPT + Midjourney + Clipchamp + Voicemaker.in

最后如果机器生成的还不满意，那么则需要剪辑软件（人工介入）进行调优

无论chatgpt还是midjourney，他们有多强大完全取决于我们的使用方法，就像屠龙刀，不懂武林秘籍的初学者可以拿刀很方便的切菜，但高手却能发挥屠龙刀更大的威力。比如初学者使用midjourney可能就输入一些简单的词生成一些图片，但有经验的开发者就可以通过增加一些特定参数，来生成非常具有艺术风格的图片，midjourney也展示了一些受欢迎的图片。

【写在最后】

AI 绘画还在狂奔路上，现在这些工具解决的是“写写字就能画画”，未来可能会进一步解决“写写字就能画多好”的问题。随着这些工具的基础功能，以及背后的模型逐步完善，我们要争的，就是如何写 prompt （提示词）了。（说白了还是搜素引擎+推荐算法+关键词输出内容）

人工智能绘画，是突破了人类自身的极限，从而让绘画分析进入到一个更为广泛的视野中以人文精神为出发点和落脚点。通过人工智能，打开绘画艺术的新领域，人工智能绘画通常神秘、绚丽、深沉、复杂、时代感强，体现出非凡的想象力。象征未来绘画的发展方向。

新的AI内容创作时代已来临，新事务的诞生，必然有陈旧的要被淘汰。替换您的从来不是AI人工智能技术本身，而是学会使用AI软件工具的人！！！