论文阅读
Avis_ma
这个作者很懒,什么都没留下…
展开
-
论文阅读笔记(audio-visual相关)—Co-Separating Sounds of Visual Objects
本文是2019 ICCV的文章。 论文地址:http://vision.cs.utexas.edu/projects/coseparation/coseparation-iccv2019.pdf Code:https://github.com/rhgao/co-separation 本文作者还有一篇文章是投在CVPR 2019的,用的是相同的框架,但是解决的问题不同,可以参考来看。 论文:http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao_2.原创 2020-05-15 21:37:20 · 943 阅读 · 4 评论 -
论文阅读笔记(audio-visual相关)—Music Gesture for Visual Sound Separation
本文是CVPR 2020 的一篇文章。 网络框架如下: 网络的思想是基于现有的声音分离模型中base方法-使用U-net进行预测与视觉相关的音频部分的mask,然后将其作用在原始频谱上,然后分离对应音频频谱。作者是在base基础上,深挖了视觉部分的可用信息——人体姿态信息。 因为作者将音频分离任务具体到乐器演奏的分离上,而乐器演奏是离不开演奏者的,并且演奏者的姿态和动作(主要体现在肢体和手部)会直接影响所演奏的音乐,所以作者在视觉部分深挖了关于人体姿态的信息,以此来更好的指导音频分离。 下面具体说一下网络原创 2020-05-15 20:59:25 · 843 阅读 · 0 评论 -
论文阅读笔记(visual relation相关)—Visual Relationship Detection with Language Priors
Visual Relationship Detection with Language Priors (ECCV 2016) 视觉关系主要是关于图像中,对象与对象之间的各种相互作用。 视觉关系检测包含检测图像中的对象,定位,并对于两者之间的predicate或者是interaction进行分类。 但是由于对象的个数本身已经很多,关系的种类也非常多,那么如果按照<subject,p...原创 2019-08-12 16:17:12 · 1211 阅读 · 0 评论 -
论文阅读笔记(visual relation相关)—Visual Relationship Detection with Deep Structural Ranking
AAAI 2018 视觉检测任务都是按照<subject, predicate, object>来进行建模的。 主要两类挑战: 一是数据不足,没办法对所有的关系进行数据标注,并且上一篇论文中所说的分类器数量庞大,并且因为数据分布不均导致的长尾问题,都是需要面临的挑战。 二是数据集的关系标注不完整。只标注了一部分对象对之间的关系,或者是标注的对象对的关系不全,可能有多种关...原创 2019-08-12 16:24:49 · 909 阅读 · 0 评论 -
论文阅读笔记(visual relation相关)—Natural Language Guided Visual Relationship Detection
\quad关于关系检测,主流的做法从短语检测开始,因为分类器数量庞大,并且数据集的长尾问题,而被取代。 \quad第二种策略就是进行拆分,按照第一篇文章的思想,将object和predicate拆分,分别进行检测,如此可以显著降低分类器数量。但是这样做,object和predicate之间的语义联系就被忽略了。因此将关系进行分类,使用同一种predicate的relationship被归为同一类...原创 2019-08-12 16:30:28 · 495 阅读 · 3 评论 -
论文阅读笔记(visual relation相关)—Exploring Visual Relationship for Image Captioning
《探索图像描述的视觉关系》 这是京东AI研究院被2018ECCV收录的一篇关于图像描述的文章。 这篇文章提出了一种新的模型,是GCN+LSTM的结构,整合了语义信息和空间位置信息到图像编码器。 image caption问题的典型解决方案是受机器翻译启发的,相当于将图像翻译为文本。 图像中的物体可能有各种尺度,可能在图像中的任意位置, 以及他们是不同的类别,这样就比较难以确定关系的...原创 2019-08-12 16:42:34 · 1249 阅读 · 3 评论