需要阅读的论文list

读了《Unsupervised Person Image Synthesis in Arbitrary Poses》这篇发现还需要补充阅读的

绿色表示已读

[1] S. E. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In NIPS, 2016.

pose conditional adversarial networks

如题,主要是在讲给GAN网络一些条件,比如告诉网络在什么位置(location)生成什么内容(text)。文中提出了三个不同条件的网络,一个是提供文本信息+边界框坐标,转化为高阶特征后结合输入噪声通过G网络生成图像,第二个是提供文本+关键点信息,第三个是提供部分条件信息(例如只给出头部和尾部位置)。

比较值得借鉴的地方在于作者对输入信息转化为高阶特征的处理,文本嵌入和关键点编码为特征图,以文本描述和对象位置为条件生成目标图像。

具体分析可参考这篇博客【论文阅读】Learning What and Where to Draw

[2] J.- Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint arXiv:1703.10593, 2017.

Cycle-GANs

主要思想见下图:

同样附一篇详细分析的博客带你理解CycleGAN,并用TensorFlow轻松实现

看完[2]以后发现需要再补两篇

[2-1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017.

[2-2] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In ECCV, pages 694–711. Springer, 2016.

[2-1]是和[2]同一拨人搞的,[2]是unpaired的图片,而[2-1]是paired的图片,前者中有对后者的多次引用,严格意义上说应该是先有的paired图片的translation再有的unpaired。[2-1]只用了条件GAN,是pix2pix的做法,[2]中因为是在两个domain之间寻找mapping function,所以提出了cycleGAN。

[2-1]提出了cGAN,可以作为一种通用的图像转换方法(image-to-image translation),不必纠结于具体的损失函数的设计,通过判别器判别生成的图像和GT,相当于自适应的学习了loss function,尤其cGAN还有很好的结构化输出。另外cGAN的贡献还在于:generator使用了U-Net的网络结构,通过跨层(i层和n-i层)之间的连接保持了输入输出图像之间的关联,discriminator提出了PatchGAN的结构,只惩罚每一个局部patch的fake,有利于高频信息的提取,结合L1 loss(L1 loss重点关注低频信息,会造成图像模糊)取得了最好的结果。

参考博客:经典重温 Pix2Pix:Image-to-Image Translation with Conditional Adversarial Networks

[2-2]应该是[2]的基础,看起来这篇文章非常重要,因为cycleGAN论文中对网络结构的描述很少,而文中提及他们所用的G网络就是来源于[2-2]中的网络结构。这篇文章是李飞飞团队的成果,已经被引692次,值得一读。

[3] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In CVPR, 2016. 

loss functions used in image style transfer that aim at producing new images of high perceptual quality

introduced the content-style loss to maintain high perceptual quality in the problem of image style transfer

[4] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super resolution. In ECCV, 2016. 

The generator is implemented as the variation of the network from Johnson et al.[4] proposed by [2] as it achieved  impressive results for the image-to-image translation problem.
 


三篇关于pose keypoints detection的

[5] S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016.

[6] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, 2017. 

[7] T. Simon, H. Joo, I. Matthews, Y. Sheikh. Hand Keypoint Detection in Single Images using Multiview Bootstrapping. In CVPR, 2017. 


几篇关于用GAN做segmentation的

[8] Luc, P., Couprie, C., Chintala, S., Verbeek, J.: Semantic segmentation using adversarial networks. In: NIPS workshop on adversarial training (2016)

第一篇用GAN做分割的论文,把GAN中的G网络换成一个segmentor,D网络变形为raw image和label map双输入的网络,尽可能区分输入的是segmentor生成的label map还是GT.

[9] Moeskops P, Veta M, Lafarge M W, et al. Adversarial Training and Dilated Convolutions for Brain MRI Segmentation[J]. 2017:56-64.

[10] Zhu W, Xiang X, Tran T D, et al. Adversarial Deep Structural Networks for Mammographic Mass Segmentation[J]. 2017.

上面是两篇用GAN做医学影像分割的论文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值