论文情况
@inproceedings{saunders2020adversarial,
title = {{Adversarial Training for Multi-Channel Sign Language Production}},
author = {Saunders, Ben and Camgoz, Necati Cihan and Bowden, Richard},
booktitle = {Proceedings of the British Machine Vision Conference (BMVC)},
year = {2020}}
创新点
- 加入对抗训练
- 加入非手部特征(面部和嘴型特征)
网络结构
整体结构
判别器结构
方法
生成器
生成器使用的是作者此前的工作“Progressive Transformer”
计算的是MSE loss
可能存在回归到一个平均值或prediction drift的情况
损失函数
判别器
- conditional GAN
条件是原始口语的句子
输出 d p ∈ ( 0 , 1 ) d_p \in (0,1) dp∈(0,1)
流程
因为生成的手语序列是变长的,因此需要将器padding 到一个固定的最大长度,用0补全
同理,句子也是边长的,pad到固定长度
将pose和句子concat到一起,构造出条件特征 输入进判别器
结构
比较简单
1D CNN 在序列水平上进行,** 可能需要保证Y的特征长度和X相同 **
共用了3个一维卷积层,每一层的feature size是64, filter size 是 10
在每一层后用了Leaky ReLU
最后用前馈线性网络和sigmoid激活函数
结果
对抗训练
使用back translation评估
DEV | TEST | |||||
---|---|---|---|---|---|---|
BLEU-4 | BLEU-1 | ROUGE | BLEU-4 | BLEU-1 | ROUGE | |
G2P | 0.81 | 1.55 | 1.82 | 1.27 | 1.71 | 1.62 |
T2P | 0.83 | 0.43 | 0.5 | 0.3 | -0.43 | 0.28 |
加入对抗训练,使生成器生成的结果更expressive, articulate
加入条件,improve the mapping
多通道的生成
面部特征带来的信息更少,只是个补充条件,所以直接只使用这一个条件,效果会很差
将手部特征和非手部特征联合起来,可以达到更好的效果