自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【读书笔记】《那些年你没学明白的数学》(线性代数-1)

线性代数基础笔记

2023-02-21 23:27:48 427

原创 论文阅读笔记:Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

文章目录摘要一、背景二、模型三、实验论文地址:https://arxiv.org/abs/1804.01452代码:https://github.com/LiqunChen0606/Jointly-Discovering-Visual-Objects-and-Spoken-Words论文笔记,有问题请在评论区指出摘要本文设计了一个将音频字幕和对应的图像关联的神经网络,通过image-audio retrieval代理任务的学习,也可以实现图像中的声源定位。本文方法不需要监督。在Places ..

2021-11-08 23:09:12 2140

原创 论文阅读笔记:Objects that sound

文章目录摘要一、背景二、跨模态查询三、定位发声物体总结摘要本篇文章有两个目标,第一个是设计一个网络可以将视觉和音频输入嵌入到一个适合于跨模态查询的空间中,另一个是在给定音频信号的情况下,可以在图像中对物体进行定位。作者通过音视频之间的对应关系(AVC)从无标注的视频中训练。贡献点:表明了音频和视觉embedding可以学习然后实现within-mode和between-mode之间的查询探索了AVC任务的不同网络架构表明了图像中有语义的发声物体是可以被定位的提醒了在数据准备时怎样避免..

2021-07-09 11:05:26 318 2

原创 论文阅读笔记: Localizing Visual Sounds the Hard Way

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录摘要背景方法Benchmark实验&结果论文地址:https://arxiv.org/pdf/2104.02691.pdf项目地址:https://www.robots.ox.ac.uk/~vgg/research/lvs/摘要主要目标: 在没有标注的情况下,在视频中定位可视的声源主要工作:通过训练网络来显式地区分有挑战性的图片片段,可以显著提高定位效果引入了一个benchmark VGG-Sound So

2021-07-02 11:35:36 406

原创 moviepy使用的坑

moviepy使用的坑最近打算确定做多媒体跨模态方向,主要是视频和音频之间的生成问题,希望对我这个菜鸟友好一点。。。由于拖延症晚期,最近终于开始了——数据集的下载orz还是决定写博客来记录一下,毕竟我记性真的差,顺便督促一下自己,以下代码很多是从各个搜索出来的页面上找的,记不清具体都是哪里的了,所以如果有侵权的话请联系我删除youtube-dl首先,我们要有一个数据集(废话x有些视频数...

2019-11-22 23:25:11 3126 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除