- 博客(5)
- 收藏
- 关注
原创 论文阅读笔记:Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input
文章目录摘要一、背景二、模型三、实验论文地址:https://arxiv.org/abs/1804.01452代码:https://github.com/LiqunChen0606/Jointly-Discovering-Visual-Objects-and-Spoken-Words论文笔记,有问题请在评论区指出摘要本文设计了一个将音频字幕和对应的图像关联的神经网络,通过image-audio retrieval代理任务的学习,也可以实现图像中的声源定位。本文方法不需要监督。在Places ..
2021-11-08 23:09:12
2140
原创 论文阅读笔记:Objects that sound
文章目录摘要一、背景二、跨模态查询三、定位发声物体总结摘要本篇文章有两个目标,第一个是设计一个网络可以将视觉和音频输入嵌入到一个适合于跨模态查询的空间中,另一个是在给定音频信号的情况下,可以在图像中对物体进行定位。作者通过音视频之间的对应关系(AVC)从无标注的视频中训练。贡献点:表明了音频和视觉embedding可以学习然后实现within-mode和between-mode之间的查询探索了AVC任务的不同网络架构表明了图像中有语义的发声物体是可以被定位的提醒了在数据准备时怎样避免..
2021-07-09 11:05:26
318
2
原创 论文阅读笔记: Localizing Visual Sounds the Hard Way
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录摘要背景方法Benchmark实验&结果论文地址:https://arxiv.org/pdf/2104.02691.pdf项目地址:https://www.robots.ox.ac.uk/~vgg/research/lvs/摘要主要目标: 在没有标注的情况下,在视频中定位可视的声源主要工作:通过训练网络来显式地区分有挑战性的图片片段,可以显著提高定位效果引入了一个benchmark VGG-Sound So
2021-07-02 11:35:36
406
原创 moviepy使用的坑
moviepy使用的坑最近打算确定做多媒体跨模态方向,主要是视频和音频之间的生成问题,希望对我这个菜鸟友好一点。。。由于拖延症晚期,最近终于开始了——数据集的下载orz还是决定写博客来记录一下,毕竟我记性真的差,顺便督促一下自己,以下代码很多是从各个搜索出来的页面上找的,记不清具体都是哪里的了,所以如果有侵权的话请联系我删除youtube-dl首先,我们要有一个数据集(废话x有些视频数...
2019-11-22 23:25:11
3126
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人