论文阅读笔记:Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input


论文地址:https://arxiv.org/abs/1804.01452
代码:https://github.com/LiqunChen0606/Jointly-Discovering-Visual-Objects-and-Spoken-Words

论文笔记,有问题请在评论区指出

摘要

本文设计了一个将音频字幕和对应的图像关联的神经网络,通过image-audio retrieval代理任务的学习,也可以实现图像中的声源定位。本文方法不需要监督。在Places 205和ADE20K数据集上进行了实验,实现了把图像中的物体和语音中的文字在语义上联结配对。作者是在raw sensory上实现的:即image pixels 和 speech waveform。


一、背景

作者想要探究在未经处理的数据上(unaligned、unannotated)能否将语音与视觉联系起来。

作者强调的是本文方法不使用任何传统的语音识别或转录,或目标检测识别模型,在不使用任何监督的情况下,实现对图像中物体和语音单词的检测分割。

二、模型

作者方法和之前方法不同的是,不再将整张图像和语音发音映射起来,而是学习在时间上和空间上分布的表示,实现在每个模态上的直接共同定位。优化目标是ranking-based。


作者使用两个分支来分别处理图像和音频
对于图像分支,前人工作一般需要预训练VGG,本文不需要,另外只保留到了conv5,去掉了后面的池化等操作。


对于音频和图像相似性的计算,先点积

可选用的相似性计算:


三、实验

首先进行了查询实验

然后进行了定位实验


还进行了聚类实验


并提出了一个基于WordNet的衡量指标
不同损失和网络结构对比

可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值