自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation

全卷积时域音频分离网络(convt - tasnet)包括三个处理阶段,如(A)所示:编码器、分离和解码器。首先,使用编码器模块将混合波形的短段转换为其在中间特征空间中的相应表示。然后使用这种表示来估计每个时间步长的每个源的乘法函数(掩码)。然后通过使用解码器模块转换掩码编码器特征来重建源波形。

2023-10-25 15:58:38 306 1

原创 音乐分离论文阅读(二)-Wave-U-Net

如图,a是普通模型的结构,在卷积前模型会进行零填充,之后在Decimation后使用跨步为2的转置卷积进行上采样,用零填充中间值和边界值,最后再经过一层卷积,这可能会使输出产生高频伪影,而本文提出的模型在上采样时使用线性插值,而不使用零填充,因为输出的特征数是不均匀的,因此上采样过程中不需要推测值。在通用模型中,输入和特征映射在卷积之前填充了零,这样得到的特征映射的维数不会改变,但是如果没有适当的上下文信息,网络就很难预测序列开头和结尾附近的输出值。在论文考虑的分离任务中,混合信号应该其源信号分量的和。

2023-10-19 15:40:56 286

原创 音乐声源分离论文阅读(一)

在本论文中,文章提出了一种网络和训练策略,该策略依赖于数据增强的强大使用,以更有效地使用可用的注释样本。该体系结构包括捕获上下文的收缩路径和支持精确定位的对称扩展路径。论文表明,这样的网络可以从很少的图像中进行端到端训练,并且在ISBI挑战中优于先前的最佳方法(滑动窗口卷积网络),以分割电子显微镜堆栈中的神经元结构。因为专业是声源分离方面,所以读这篇论文只是了解到U-net的模型结构和代码以及U-net相对于先前卷积网络的有效性,为之后阅读其他论文做准备(后面许多论文是基于U-net的)。

2023-10-17 11:00:47 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除