本期嘉宾
周艺超 腾讯QQ影像中心工程师
周艺超,腾讯QQ影像中心资深应用开发工程师。入职腾讯后负责超级QQ秀的智能捏脸相关的研发工作,2022年开始负责小世界AIGC相关的技术研发和产品落地,主要负责《异次元的我》、《魔法画室》等活动的算法开发、工具架构搭建、AI应用落地等相关工作。加入腾讯前从事虚拟人生成、人脸编辑等领域相关研究。
主持人
田超 腾讯云企业中心总经理
田超,腾讯云企业中心总经理、音视频应用平台总经理,负责腾讯云用户增长、DNSPod业务以及企业应用相关产品。同时也是资深用户增长专家,大数据技术专家,曾任应用宝增长平台总经理,摩拜单车技术副总裁。长期致力于对企业数字化相关研究。
1
田超:最近AIGC的热度居高不下,除了ChatGPT,最火的莫过于AI绘画。其实在去年年底,QQ影像中心就上线了一个AI绘画《异次元的我》,不仅在QQ小世界话题内浏览量上亿,海外热度甚至还一度超过了当今最炙手可热的Stable Diffusion,我了解到背后的AI工程师就是你。你是怎样的契机加入了QQ影像中心?为什么选择了AIGC赛道?
周艺超:我是两年前来到QQ影像中心,最初的契机是当时QQ影像中心推出的一个童话脸滤镜,这是一个基于GAN的图像生成技术落地的应用,效果非常出圈,在技术和落地应用上都做得很好,与我的个人偏好也很符合。于是我就投递了简历,后续也很幸运加入QQ影像中心团队。
QQ童话脸滤镜
但是当时由于技术限制,基于GAN技术对日漫风格的生成效果不够理想,后来随着技术发展,终于能够在我负责的《异次元的我》项目中实现非常突破次元壁的日漫风格滤镜,也可以看作是当时活动的一个延伸,对于我这个资深二次元来说可以算是圆梦了。
点击体验QQ小世界《异次元的我》,KFC官方推特亲自将肯德基老爷爷变成二次元形象
2
田超:相信大家最想知道的就是AIGC背后的技术原理。以QQ影像中心的《异次元的我》为例,你能给大家简单讲解一下AI是如何生成图片的吗?
周艺超:要知道AI如何生成图片,首先需要大致理解,目前的主流AI,本质上是在模拟现实中的数据分布,是一个非常复杂的统计模型。所以对于AI绘画来说,它需要用巨量的真实图片来训练,通过模型去模拟数据的分布规律,再用这样的规律去生成一张新的图片。
而目前的主流AI绘画模型,是基于扩散模型的。打一个比方说,我们往一块牛排上撒椒盐,撒上去以后牛排的纹路会慢慢变得看不清楚,而扩散模型可以通过这样撒上椒盐的图片去预测椒盐(也就是噪声)分布来去除椒盐,还原牛排的纹理。所以如果把每一步显示出来,就可以看到一张充满噪声的图片,变得越来越清晰。这就是目前主流AI绘画使用的模型的基本原理。
在教会模型如何学会画画(通过去除噪声还原图片的方式)之后,要如何让模型生成我们想要的效果呢?这就涉及到衡量文本和图像的相关性,这个部分使用的是CLIP模型。这个CLIP模型,其实就是用了巨量的文本+图片数据对(互联网可以爬到大量数据),把图片和文本编码后的特征计算相似性矩阵,通过最大化对角线元素同时最小化非对角线元素,来优化两个编码器,让最后的文本和图片编码器的语义可以强对应起来。
在生成图像的过程中,原本的网络只需要预测噪声,现在网络不但要预测噪声,还需要让去噪后的结果图尽可能和文本接近(也就是CLIP-loss尽量小)。这样在不断去噪的过程中,模型就会倾向于生成和文本相近的图片。
而异次元这样的漫画滤镜,则是对用户上传的原图增加几层噪声,再以这个为基础进行常规的去噪。叠加的噪声的强度越高,生成的图片和原图就差距越大,AI画画的发挥空间就越大。
拿肯德基爷爷来说,你把屏幕放远点看这两张图的色块是相近的。因为右边的图片就是基于左边叠加了厚厚的“椒盐”来作为基础生成的,大致的色块结构依然保留了,但模型也加上了自己的想象(通过文本引导)。
3
田超:其实上传图片一键变成二次元的应用也不少见,《异次元的我》上线时美图和抖音都有同步推出类似的日漫风格滤镜,那么QQ影像中心的《异次元的我》对比友商特别在哪里?