【论文解读】Adversarial Training for Multi-Channel Sign Language Production

论文情况

@inproceedings{saunders2020adversarial,
	title		=	{{Adversarial Training for Multi-Channel Sign Language Production}},
	author		=	{Saunders, Ben and Camgoz, Necati Cihan and Bowden, Richard},
	booktitle   	=   	{Proceedings of the British Machine Vision Conference (BMVC)},
	year		=	{2020}}

创新点

  • 加入对抗训练
  • 加入非手部特征(面部和嘴型特征)

网络结构

整体结构

image.png

判别器结构

image.png

方法

生成器

image.png
image.png
生成器使用的是作者此前的工作“Progressive Transformer”

计算的是MSE loss

可能存在回归到一个平均值或prediction drift的情况

损失函数
image.png

判别器

  • conditional GAN

条件是原始口语的句子

输出 d p ∈ ( 0 , 1 ) d_p \in (0,1) dp(0,1)

流程
因为生成的手语序列是变长的,因此需要将器padding 到一个固定的最大长度,用0补全
image.png
同理,句子也是边长的,pad到固定长度
image.png
将pose和句子concat到一起,构造出条件特征 输入进判别器
image.png

结构

比较简单

1D CNN 在序列水平上进行,** 可能需要保证Y的特征长度和X相同 **
共用了3个一维卷积层,每一层的feature size是64, filter size 是 10

在每一层后用了Leaky ReLU

最后用前馈线性网络和sigmoid激活函数

结果

对抗训练

使用back translation评估
image.png

DEVTEST
BLEU-4BLEU-1ROUGEBLEU-4BLEU-1ROUGE
G2P0.811.551.821.271.711.62
T2P0.830.430.50.3-0.430.28

加入对抗训练,使生成器生成的结果更expressive, articulate

加入条件,improve the mapping

多通道的生成

image.png
面部特征带来的信息更少,只是个补充条件,所以直接只使用这一个条件,效果会很差

将手部特征和非手部特征联合起来,可以达到更好的效果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值