论文阅读笔记：Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

最新推荐文章于 2024-10-08 09:21:57 发布

住在新手村的小木子

最新推荐文章于 2024-10-08 09:21:57 发布

阅读量2.1k

点赞数

分类专栏：论文阅读笔记文章标签：语音识别人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39233881/article/details/121211789

版权

论文阅读笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

摘要
一、背景
二、模型
三、实验

论文地址：https://arxiv.org/abs/1804.01452
代码：https://github.com/LiqunChen0606/Jointly-Discovering-Visual-Objects-and-Spoken-Words

论文笔记，有问题请在评论区指出

摘要

本文设计了一个将音频字幕和对应的图像关联的神经网络，通过image-audio retrieval代理任务的学习，也可以实现图像中的声源定位。本文方法不需要监督。在Places 205和ADE20K数据集上进行了实验，实现了把图像中的物体和语音中的文字在语义上联结配对。作者是在raw sensory上实现的：即image pixels 和 speech waveform。

一、背景

作者想要探究在未经处理的数据上（unaligned、unannotated）能否将语音与视觉联系起来。

作者强调的是本文方法不使用任何传统的语音识别或转录，或目标检测识别模型，在不使用任何监督的情况下，实现对图像中物体和语音单词的检测分割。

二、模型

作者方法和之前方法不同的是，不再将整张图像和语音发音映射起来，而是学习在时间上和空间上分布的表示，实现在每个模态上的直接共同定位。优化目标是ranking-based。

作者使用两个分支来分别处理图像和音频
对于图像分支，前人工作一般需要预训练VGG，本文不需要，另外只保留到了conv5，去掉了后面的池化等操作。

对于音频和图像相似性的计算，先点积

可选用的相似性计算：

三、实验

首先进行了查询实验

然后进行了定位实验

还进行了聚类实验

并提出了一个基于WordNet的衡量指标
不同损失和网络结构对比

可视化

住在新手村的小木子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。