情感计算-表情生成

最新推荐文章于 2024-09-28 11:35:30 发布

无脑敲代码，bug漫天飞

最新推荐文章于 2024-09-28 11:35:30 发布

阅读量4k

点赞数 2

分类专栏：情感计算文章标签：人工智能

本文链接：https://blog.csdn.net/qq_40671063/article/details/124247530

版权

情感计算专栏收录该内容

7 篇文章

订阅专栏

1 背景及意义

1. 表情生成的目的是通过某种表情计算方法产生出有表情的人脸图像；

表情生成得到了计算机图形学、计算机视觉和模式识别领域的广泛关注；

表情生成在人脸编辑、影视制作、社交网络和数据扩增方面应用广泛；

合成高逼真度的人脸图像仍然是一个挑战性难题；

2. 输出：各种风格的表情

2 研究主要机构与数据库

1. 表情生成研究机构（计算机视觉范畴，人脸表情特征粒度表示）

清华：Xu F. A data-driven approach for facial expression synthesis in video[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:57-64

韩国大学：Choi Y, Choi M, Kim M, et al. StarGAN: Unified Generative Adversarial Networks for
Multi-Domain Image-to-Image Translation[J]. 2018.

马里兰大学：Ding H, Sricharan K, Chellappa R. ExprGAN: Facial Expression Editing with
Controllable Expression Intensity[J]. 2017.

2.数据库：

CK+：http://www.consortium.ri.cmu.edu/ckagree/http://www.consortium.ri.cmu.edu/ckagree/

RaFD Dataset：http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=mainhttp://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main

Oulu-CASIA NIR&VIS facial expression database：http://www.cse.oulu.fi/wsgi/MVG/Downloads/Oulu-CASIAhttp://www.cse.oulu.fi/wsgi/MVG/Downloads/Oulu-CASIA

CAS-PEAL face database：http://www.jdl.ac.cn/peal/http://www.jdl.ac.cn/peal/

3. CK+： 8种表情状态；卡内基梅隆大学；考虑光照、阴影、采集距离等影响；自然场景下采集的；327个有感情标签的图片；

4. RAFD数据库：荷兰奈梅亨大学；8种表情状态；

5. 表情生成问题评价：（客观/主观）

客观评价:身份信息是否保持、合成表情是否正确、其他客观评价指标

人视觉感知，与像素点的精确度是有一定差别的；

主观评价：MOS（Mean Opinion Score）：邀请被试者，人工对合成图像打分，评判身份信息是否保持、合成表情是否正确、合成图像是否符合审美（与语音生成评价方法类似）

6. 客观评价因素：

客观评价 -- 身份信息是否保持

选取Rank-1准确率指标：就是第一次命中；Rank-k，就是在第k次以内命中。人脸识别中，Rank-k就代表与目标人脸最相似的k个人脸中，成功命中的概率；（比如5个候选，包括了目标人）

客观评价 -- 合成表情是否正确

对于表情生成后的效果，设计或利用现有模型对生成的表情进行识别验证，指标为分类准确率（ACC）

客观评价 --直接比较生成图像和标准答案图像之间的差异

峰值信噪比（PSNR）、结构相似性（SSIM）、均方误差（MSE）、Inception Score（IS）

3 传统的表情生成方法

1. 表情生成方法

渐变法：

通过同一时域变形函数，完成相关联的两个表情状态图像的帧间插值坐标转换构造出渐变图像，可以是二维/三维/纹理空间的坐标值

渐变技术是产生人脸表情的直观方法，按其特点可分为：

基本渐变(morphing)

基于视点的渐变(view morphing)

三维渐变(3D morphing)

表情映射

将某个人脸对象的表情重新定位到其他特定人脸上的方法，广泛应用于表演驱动的脸部动画中。可分为两类：一般表情映射和表情比率图；

一般映射法：

给定某人的中性脸和表情脸图像，确定两幅图像中的特征点，然后计算这两组特征点的差向量，并将它作用到另一个人中性脸的特征点上，使该中性脸依此进行图像变形，从而得到新的表情；

其实质是利用已经存在的顶点运动向量等数据，将其他人脸对象的表情映射到或者说定位到新的特定人脸上传统的表情生成方法

劣势；整个过程仅针对人脸表情进行，没有考虑皮肤变形挤压产生的皱纹等变化丰富的表情细节，因而影响了表情的真实感程度；

表情比率图（ERI）

用于捕获由于扰动而引起的光照变化的且与脸部皮肤颜色无关的数据结构。一个人脸的表情比率图能被应用到任何其他人脸来得到正确的光照改变，从而将一个人的表情细节更好地整体转移到其他人的脸部；

给定某人的中性脸和表情脸图像，计算两幅图像各对应像素光亮度之比或RGB 3个成分的比值，然后结合表情变化前后特征点的移动，将这组比例作用到另一个人的中性脸图像上，进行变形操作，从而获得另一个人的表情图像；

解决了一般表情映射无法合成表情细节的缺陷；

劣势：要获得某个人某种特定表情脸，必须有一幅已知的表情脸图像作为一个样本与之对应，因此需要大量的样本

几何驱动

针对表情比率图方法中存在的不能很好反应皱毛发光照等细节纹理的缺陷。计算一系列样本表情的凸组合来生成照片真实感的脸部表情，然后从几何信息反推出纹理信息；

划分子区域，自动推算纹理变形程度；

优势：生成结果纹理细节特征丰富，且光照准确真实；

劣势：需要对特征标记点进行逐幅图像的追踪，工作量大；生成数据库时需要准备目标人脸一整套样本表情传统的表情生成方法；

表情系数

采用双线性核降秩回归 (BKRRR) 方法来学习中性表情和其他表情之间的变形系数，从而生成目标人脸的表情；

五官移植

使用五官移植生成算法，可以把输入人脸图片中的某部分五官组件(比如鼻子) 移植到另一张照片上，并得到整体自然的效果；（难以实现让生成图片形成更为自然的协调）

统计学方法

利用样本库中的人脸图像，以线性组合或其他组合方式表示新的人脸；

通过总结人脸对象的一般规律，对特定人脸图像进行模型匹配与表达，可以结合不同熟悉特征的人脸图像数据库实现不同的脸部图像处理效果；

传统的方法用的少了，会议论文也基本不用了

4 基于深度学习的表情生成方法

1. 基于深度学习的表情生成方法，随着生成模型的发展而发展。大量用于图像翻译任务的模型，都可以用于表情生成；（图像翻译任务的子任务）

2. 图像翻译是指图像内容从一个域迁移到另一个域，可以看成是图像移除一个域的属性，并赋予另一个域的属性；

3.基于深度学习的表情生成方法

PixelRNN

GAN

GAN部分变体

4. PixelRNN

PixelRNN是使用概率链式法则来计算一张图片出现的概率

每一项为给定前i-1个像素点后第i个像素点的条件概率分布

分布通过神经网络RNN来建模，再通过最大化训练数据x的似然来学习出RNN的参数

从左上角开始生成图像。由于RNN每个时间步的输出概率都依赖于之前所有输入，因此能够用来表示上面的条件概率分布；

计算量大，耗时。训练这个RNN时，一次前向传播需要从左上到右下串行走一遍，然后求出似然，并最大化似然以对参数做一轮更新；

5. GAN示例

生成器（Generator network）：试着生成和真实图像很相似的数据；

判别器（Discriminator network）：试着区分真实图像和生成图像；

GAN生成图片

在训练完成之后，利用生成器，生成接近训练集数据分布的图片

先训练k轮判别器，再训练一轮生成器，但是k取多少比较好，并没有定论
6. GAN延生模型

DCGAN

相较原始的GAN，DCGAN几乎完全使用了卷积层代替全链接层；

判别器几乎是和生成器对称的；

整个网络没有池化层和上采样层的存在，实际上是用带步长的卷积代替了上采样，以增加训练的稳定性；

在生成器和判别器中都添加了批量归一化操作；

生成与输入图像尽可能匹配

Pix2Pix

Pix2Pix使用的是Conditional GAN（cGAN）

它的G输入显然应该是一张图x，输出当然也是一张图y

D的输入却应该发生一些变化，因为除了要生成真实图像之外，还要保证生成的图像和输入图像是匹配的（即两者具有一定相似性）

CycleGAN

CycleGAN算法就是将这种Cycle一致性思维引入到图像翻译任务上来，用于处理unpaired图像翻译问题。CycleGAN本质上是两个镜像对称的GAN，构成了一个环形网络；

如果我们同时训练两个GAN，其中一个是生成器GA2B的鉴别器DB，另一个是GA2B的鉴别器DA ，那么一张A类型的图片x，通过两次变换，应该能变回自己；

StarGAN

在StarGAN中，生成网络G被实现成星形。左侧为普通的Pix2Pix模型要训练多对多模型时的做法（多个G）。右侧可以看到，StarGAN仅仅需要一个G来学习所有领域对之间的转换；

G拥有学习多个领域转换的能力

在G的输入中添加目标领域信息，即把图片翻译到哪个领域这个信息告诉生成模型

D除了具有判断图片是否真实外，还要有判断图片属于哪个类别的能力。保证G中同样的输入图像，随着目标领域的不同生成不同的效果

保证图像翻译过程中图像内容要保持，只改变领域差异的那部分。图像重建可以完成这一部分，图像重建即将图像翻译从领域A翻译到领域B，再翻译回来，不会发生变化

5 多模态情感生成

1. 个体情感的表达是可以从多个模态（语音、面部表情以及生理信号等等）感知出来的；

2. 语音和面部表情动作是最容易感知的模态形式；

3. 单模态情感生成是多模态情感生成的基础；

4. 多模态情感生成需要根据情感的变化使得音视频信息呈现一致；

5. 多模态情感生成需要考虑不同模态之间的同步问题；

6. 典型方法：

美国加州圣塔芭芭拉分校的Sargin等分析了头部姿势和语音韵律模式，基于隐马尔可夫模型方法完成了韵律驱动的头部姿势动画的自动生成；

韩国先进科技学院的Kim等致力于人类友好机器人的多模态表情生成。他们合成的机器人表情包括询问、请求、回答和解释四种类型；

7. 主要应用：

类人机器人

虚拟主播（科大讯飞、搜狗）

虚拟现实（元宇宙任务）

6 音视频深度伪造

1. 使用“生成式对抗网络”深度学习模型进行大样本学习，将图片或视频合并叠加到源图片或视频上，或将声音、面部表情及身体动作拼接合成虚假内容的人工智能技术；

2. 截至2020年2月，伪造视频达到14,678个，伪造色情视频访问量超过1亿次。美国和中国政府均推出相应法规和政策；

3. 可以将音视频深度伪造的方法应用到情感生成任务中；

4. 数据获取：多媒体网络数据（图像、音视频、文本），所有的伪造可以从网络获取，便利、快捷、数量庞大；

5. 将这些源数据作为深度神经网络学习的输入，通过ML和AI领域的技术，自动创建生成和目标内容匹配的数据；

6. 然后将生成的目标内容嵌入到原始的源数据内容中，创建或者篡改源数据，完成深度伪造的假视频内容。

7 展望

1. 随着深度学习技术的发展，表情生成技术不断取得突破

2. 细微表情的跟踪能力有待进一步提升

3. 融合情境感知和用户个性化的表情生成

4. 跨模态协同的表情生成

参考-国科大情感识别课件