1、目的
无监督图像转换:source类 -> target类;
其中target类的样本很少,只在test时用到;
训练source类 -> 多个another类,其中another类的样本也较少;==> 通用的外观提取模型
2、原理/基础
1)人看到新物体(target class),可以基于以往的知识(trained model),脑补出新物体的不同姿势(generated picture)
2)图像之间存在部分共享的潜在空间
3、网络设计
1)条件图像生成器G(少样本图像转换器)
输入:一组内容图像 + 一组K类图像
,每次随机取source类
输出:,其中
外表和
类中的一张图接近,但内容和
相似
a)内容编码器:卷积 / 残差模块;提取class-invariant隐式表达,决定local structure;内容图像
-> 隐码
b)类编码器 :卷积 / 不同样本的平均操作;提取class-specific隐式表达,决定global look;K类图像
-> 中间隐码 -> element-wise平均后的最终隐码
c)解码器:AdaIN残差模块/上卷积层;样本激活 -> 0均值单位方差 -> 通过
得到的仿射变换
2)多任务对抗判别器D
同时解决多个对抗分类任务,每个任务是二分类任务
4、目标函数
1):GAN loss
D的上标表示计算相应类的二元loss
2):内容图像重建loss
3):特征匹配loss
其中,是判别器倒数第二层的输出
5、结论
1)训练类别数 ↑,目标类别图像数目 ↑,图像转化能力 ↑
2)理论基础:
a) 内容编码器 可以学到不随类别而改变的隐码
b) 类编码器 可以学到class-specific隐码
c) 类编码器 可以推广到新类别
3)新类在视觉上和训练用的source类具有相关性,如果差距过大,则FUNIT无法成功转换