【周记】002-20190907-20190915（利用CVAE发明GDAN进行GZSL;通过增加其他输入和文本插值改进GAN进行T2I）

最新推荐文章于 2023-04-25 16:52:50 发布

哥们要飞

最新推荐文章于 2023-04-25 16:52:50 发布

阅读量606

点赞数

分类专栏：周记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/USTSD/article/details/100849428

版权

周记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

报告内容

（泛读靠自觉，精读要深刻，进展需显著）

论文精读

论文1：（作者，题目，发表信息）

题目：Generative Dual Adversarial Network for Generalized Zero-shot Learning（用于广义零样本学习的生成对偶对抗网络）

作者：芝加哥伊利诺斯州大学，字节跳动，中山大学

来源：CVPR2019

问题动机：无论图像类别是否已知，都可对其进行分类（图像→标签/类别）

解决思路：学习到文本到图像特征的映射函数，进而可以根据文本的向量控制图像特征的生成

方法亮点：

（1）利用生成方法，对未知类别生成图像特征，将其转化为有监督分类问题；

（2）生成器分为特征生成器网络（语义→视觉特征）和回归器网络（视觉→语义），相互学习；

（3）“双”：上述部分与对抗网络在循环一致性损失和对抗性损失下同时进行训练

主要结果：可以合成大量样本从而帮助判别器训练，提高未知类别的分类精度

存在问题：不能理解直观的矩阵表示、t-SNE

关于能否解决自己问题的思考：调和精度、CVAE、判别器的输入

翻译、原文、PPT、代码：https://mp.weixin.qq.com/s/qE7Bbk4VriC_cOdatIGfdQ

论文2：（作者，题目，发表信息）

题目：Generative Adversarial Text to Image Synthesis

来源：基于生成对抗的文本到图像合成（ICML 2016）

问题动机：用字符集卷积，使得文本可以控制图像的生成

解决思路：噪声+字符向量得到合成图像，并将训练图像与文本联合输入通过判别器验证是否匹配

方法亮点：

（1）使用DCGAN；

（2）生成器是通过对字符和噪声卷积合成图像；

（3）判别器是合成图像与原始文本进行判断匹配；

（4）GAN-CLS将错误的输入也输入了判别器；

（5）GAN-INT对文本嵌入进行流型插值；

（6）通过样式编码器转换图像的风格

（7）在MS-CoCO数据集上进行了测试

主要结果：根据文本得到了合成的图像

存在问题：无代码，不能真正的看到文本生成图像的效果

关于能否解决自己问题的思考：需要进一步找GAN从文本生成图像的代码并进行实现（CVAE文本编码和GAN文本编码代码实现）

研究进展

方法进展（反映思考深入程度）：文本生成图像/图像生成对应标题/进行样式转换/附加t-SNE可视化展示/准确率度量

实验进展（反映Coding工作量）：利用MATLAB代码了解零样本数据集的特点，xlsa17的代码复现

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【周记】002-20190907-20190915（利用CVAE发明GDAN进行GZSL;通过增加其他输入和文本插值改进GAN进行T2I）

报告内容（泛读靠自觉，精读要深刻，进展需显著）论文精读论文1：（作者，题目，发表信息）题目：Generative Dual Adversarial Network for Generalized Zero-shot Learning（用于广义零样本学习的生成对偶对抗网络）作者：芝加哥伊利诺斯州大学，字节跳动，中山大学来源：CVPR2019问题动机：无论图像类别是否已知，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。