【论文解读】Adversarial Training for Multi-Channel Sign Language Production

最新推荐文章于 2024-09-07 21:01:55 发布

余生!

最新推荐文章于 2024-09-07 21:01:55 发布

阅读量160

点赞数

文章标签：自然语言处理深度学习 pytorch

本文链接：https://blog.csdn.net/qq_16162595/article/details/120318435

版权

论文情况

@inproceedings{saunders2020adversarial,
	title		=	{{Adversarial Training for Multi-Channel Sign Language Production}},
	author		=	{Saunders, Ben and Camgoz, Necati Cihan and Bowden, Richard},
	booktitle   	=   	{Proceedings of the British Machine Vision Conference (BMVC)},
	year		=	{2020}}

创新点

加入对抗训练
加入非手部特征（面部和嘴型特征）

网络结构

整体结构

判别器结构

方法

生成器

生成器使用的是作者此前的工作“Progressive Transformer”

计算的是MSE loss

可能存在回归到一个平均值或prediction drift的情况

损失函数

判别器

conditional GAN

条件是原始口语的句子

输出 $d_p \in (0,1)$

流程
因为生成的手语序列是变长的，因此需要将器padding 到一个固定的最大长度，用0补全

同理，句子也是边长的，pad到固定长度

将pose和句子concat到一起，构造出条件特征输入进判别器

结构

比较简单

1D CNN 在序列水平上进行，** 可能需要保证Y的特征长度和X相同 **
共用了3个一维卷积层，每一层的feature size是64， filter size 是 10

在每一层后用了Leaky ReLU

最后用前馈线性网络和sigmoid激活函数

结果

对抗训练

使用back translation评估

	DEV			TEST
	BLEU-4	BLEU-1	ROUGE	BLEU-4	BLEU-1	ROUGE
G2P	0.81	1.55	1.82	1.27	1.71	1.62
T2P	0.83	0.43	0.5	0.3	-0.43	0.28

加入对抗训练，使生成器生成的结果更expressive, articulate

加入条件，improve the mapping

多通道的生成

面部特征带来的信息更少，只是个补充条件，所以直接只使用这一个条件，效果会很差

将手部特征和非手部特征联合起来，可以达到更好的效果

余生!

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文解读】Adversarial Training for Multi-Channel Sign Language Production

论文情况@inproceedings{saunders2020adversarial, title = {{Adversarial Training for Multi-Channel Sign Language Production}}, author = {Saunders, Ben and Camgoz, Necati Cihan and Bowden, Richard}, booktitle = {Proceedings of the British Machine Visi
复制链接

扫一扫