The Sound of Pixels

最新推荐文章于 2024-07-14 22:50:26 发布

Tahy

最新推荐文章于 2024-07-14 22:50:26 发布

阅读量3.3k

点赞数 1

分类专栏：论文文章标签：计算机视觉深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a404NotFound/article/details/121291376

版权

论文专栏收录该内容

15 篇文章 0 订阅

订阅专栏

简介

提出了一种声音分离网络，对视觉特征应用了空间最大池化，与声音特征进行点乘融合，以二值或软掩膜作为监督信号。每个音频有对应的视觉响应。收集了MUSIC数据集。

所提方法

在这里插入图片描述

网络结构

视频分析网络：使用ResNet-18作为骨干，提取T×(H/16)×(W/16)×K，使用了时间池化。
音频分析网络：对数声谱图，用U-Net作为骨干。==为何用对数声谱图？==对于诸如乐器等的谐波具有平移不变性（其基频和高阶谐波随着音高的变化在对数频率尺度上平移）
合成网络：帧特征和声音特征同时输入，为视觉特征乘以一个可学习的尺度因子（与通道数量相等），然后与声音特征进行点乘，最后加上一个偏置。

损失函数

L1 loss

实施

数据集：混合的声音为单独的声音进行线性相加。掩膜可以是二值的格式，也可以是比例的格式。
若为二值格式，则目标声音掩膜上每个位置的值，是由该声音是否占据混合声音的主要成分来确定的
$M_n(u,v)=\llbracket S_n(u,v)\geq S_m(u,v)\rrbracket, \forall m=(1,...,N)$ ，此时的损失函数为sigmoid cross entropy loss。
若为比例格式，则为 $M_n(u,v)=\frac{S_n(u,v)}{S_{mix}(u,v)}$ ，使用L1损失
音频采样率降到11kHz，在训练时随机为每个音频采集6秒，STFT的窗口尺寸为1022，步幅256，得到512×256的对数声谱图

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
The Sound of Pixels

简介提出了一种声音分离网络，对视觉特征应用了空间最大池化，与声音特征进行点乘融合，以二值或软掩膜作为监督信号。每个音频有对应的视觉响应。收集了MUSIC数据集。所提方法网络结构视频分析网络：使用ResNet-18作为骨干，提取T×(H/16)×(W/16)×K，使用了时间池化。音频分析网络：对数声谱图，用U-Net作为骨干。==为何用对数声谱图？==对于诸如乐器等的谐波具有平移不变性（其基频和高阶谐波随着音高的变化在对数频率尺度上平移）合成网络：帧特征和声音特征同时输入，为视觉特征乘以一个可学
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。