Deep Cross-Modal Audio-Visual Generation论文核心部分个人理解

最新推荐文章于 2024-06-08 09:59:19 发布

weixin_33882452

最新推荐文章于 2024-06-08 09:59:19 发布

阅读量616

点赞数

文章标签：人工智能

原文链接：https://juejin.im/post/5c616ee96fb9a049c232e727

版权

这篇论文刚看的时候由于基础薄弱，看的有点费劲，这里做一个总结；

这篇文章主要研究的是跨模态之间的互相生产，初看的时候。。。觉得十分扯淡，内心吐槽这种方法也可以。。。

这篇文章讲述的跨模态生成主要是在Audio和Visual之间，也就是图像和音频之间的转换，主要的研究载体就是改良过的GAN网络，也称CMAV模型；

一、模型的主要介绍：

该模型主要分为两个网络，一个为Image-to-Sound网络，一个为Sound-to-Image网络；我们逐个进行分析；

1.Image-to-Sound网络(也称I2S):

网络的大致流程就是：

先将演奏的图片进行卷积，生成一个64尺寸的向量，然后和噪音z相连接；

之后使用反卷积，生成一张我们想要的LMS声谱图。

最后，将该LMS图像进行卷积，和先前的压缩图像编码拼接为一个向量，最后输出；

这个网络是两个网络中结构最简单的，只需要注意图片和声音类型对应即可；

2.Sound-to-Image网络(也成S2I)：

其先对LMS声谱图像进行卷积，然后进行噪音拼接，反卷积生成演奏图片；

之后对生成的图片再次卷积，然后和LMS的卷积向量进行合并，之后输出；

二、损失函数：对于该GAN网络来说，我们的判别器目标函数为：

其中Sr为真实的图像和对应图像的演奏声音的分数，Sw为错误的对应图像和对应图像声音的分数，Sf为生成器生成的图像和对应图像声音的分数；

可以看出，对于判别器的来说，基于GAN网络，我们的目标是让判别器判别出生成网络生成的图片为错误的图片，因此，我们期望Sr=1,Sw=0，Sf=0,从而使得这个目标函数最大化；

而对于生成网络，其目标函数如下：

其目的是Sf=1，对应到判别网络，也就是使得判别网络的对该生成图片的判别为真；

以上就是论文的核心部分，实验结果也不再赘述，论文里有很多；其实这个网络的结构融合了CGAN的结构，也就是通过向生成器G和判别器D内加入Y，从而使得无监督学习变为有监督学习，后续还会对这些进行更加深入的理解；

转载于:https://juejin.im/post/5c616ee96fb9a049c232e727

weixin_33882452

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。