人工智能内容生成元年—AI绘画原理解析

AI记忆

已于 2023-03-30 10:53:41 修改

阅读量2.1w

点赞数 39

分类专栏：深度学习论文与相关应用文章标签：人工智能 AI作画计算机视觉 AIGC

于 2022-12-03 22:27:33 首次发布

本文链接：https://blog.csdn.net/sunbaigui/article/details/128167000

版权

深度学习论文与相关应用专栏收录该内容

101 篇文章

订阅专栏

团队模型、论文、博文、直播合集，点击此处浏览

一、背景

2022年AIGC（AI生成内容）焕发出了勃勃生机，大有元年之势，技术与应用迭代都扎堆呈现。在各种新闻媒体处可以看到诸多关于学术前沿研究，以及相应落地的商用案例。可谓出现了现象级的学术-商业共振。以往学术研究内容离商用一般较远，因为学术研究相应实验数据通常为闭集即固定数据场景，而商业应用则为开集即非固定数据场景（能见到各式各样、甚至乱七八糟的数据）。所以将学术研究内容转化为商业应用的时候，就需要以工匠精神去做产品化设计与迭代，主要目的就是不断提升其可用性以达到商业化标准（避免出现不符预期、甚至乱七八糟的结果）。

但AIGC领域似乎大大缩短了这一转化进程，尤其以近期短时间内爆火的AI绘画、AI作画类应用为代表。这无疑是人工智能发展至今的巨大胜利时刻，这能建立极强、极快的螺旋式发展迭代循环，商业应用上的不足点能迅速反馈至学术研究侧，学术研究侧的优化改进也能迅速体现到商业应用侧，拉满学术研究能获得的成就感。接下来的篇幅将介绍现有AI绘画、AI作画背后的相应基本原理、应用、以及论文参考文献。更多技术与应用的有趣想法欢迎评论区留言。

二、原理

技术脉络归纳：

在AI内容生成制作爆火的2022元年，在其基础框架技术部分，技术演进的脉络可以看作是不断寻找更可靠的特征域建模方式，亦可看作是不断寻找更合适的借鸡生蛋方式的过程。原始图像域的特征维度是很高的，直接来建模会有维度灾难的问题。需要不断找到可行的中间域来做对齐：

1.）CLIP可以看作是图像域与文本域特征对齐的大一统技术框架，文本域的原始特征空间跟原始图像域的特征空间比是相对更小的。所以在同等维度特征的表达下，文本相比图像是能更加容易被刻画好的，所以当align文本域特征到图像域特征时，图像域特征表达将无疑得到了更佳的富有语义的监督信号。这样获得更好的效果也就很自然了。

2.）diffusion可以看作是将原始图像域建模转变为噪声域建模的方法。噪声域有两个极大的好处：首先，它的特征空间比原始图像域要小的多，非常容易建模。其次，即使噪声域建模效果没能接近完美，它所呈现出来的差异也是噪声域的差异，而这个噪声差异在图像内容域上对人眼来说往往注意不到。所以从基本原理上来说，diffusion生成的图像细节无疑是会远远优于gan的。