自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 踩坑:win和linux上函数效果不一致

踩坑:win和linux上函数效果不一致原因:os.listdir函数在win上读取后会自动排序,但在linux上不一致,后加sort,无误

2021-09-09 14:49:50 431 1

原创 Pytorch踩坑:Trying to backward through the graph a second time, but the buffers have

Pytorch踩坑:Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.问题描述:上述如题,全网络仅一个backward,非gan训练出现此问题。训练过程中,第一轮时,对第一组数据可以进行backward,但是对第二组数据会在backward处报错

2021-08-07 18:31:30 3258 4

翻译 SED文章翻译:LARGE-SCALE WEAKLY SUPERVISED AUDIO CLASSIFICATION USING GATED CONVOLUTIONAL NEURAL NETWORK

SED文章翻译:LARGE-SCALE WEAKLY SUPERVISED AUDIO CLASSIFICATION USING GATED CONVOLUTIONAL NEURAL NETWORKabstract在本文中,我们提出了一种门控卷积神经网络和一种基于时间注意力的音频事件分类方法,在声场景和事件检测和分类 (DCASE) 的大规模弱监督声音事件检测任务中获得第一名) 2017 年的挑战。此任务中从 YouTube 视频中提取的音频剪辑被手动标记为一个或多个音频标签,但没有音频事件的时间戳(即

2021-08-02 11:36:53 519

翻译 论文研究15:TCNN for speech enhancement

论文研究13:TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECH ENHANCEMENT IN THE TIME DOMAINabstract这项工作提出了一种用于时域实时语音增强的全卷积神经网络(CNN)。 提出的CNN是基于编码器-解码器的体系结构,在编码器和解码器之间插入了一个附加的时间卷积模块(TCM)。 我们将此架构称为时间卷积神经网络(TCNN)。 TCNN中的编码器创建一个嘈杂的输入帧的低维表示。 TCM使用因果

2020-12-23 16:04:46 865 1

翻译 论文研究14:Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel model

论文研究14:Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separationabstract单声道语音分离技术远不能令人满意,并且由于来自多个来源的干扰而成为一项具有挑战性的任务。最近,深度扩张的时间卷积网络(TCN)已被证明在序列建模中非常有效。这项工作探索了如何扩展TCN以产生

2020-12-23 16:04:11 1231 1

翻译 论文研究13:AN EMPIRICAL STUDY OF CONV-TASNET

论文研究12:AN EMPIRICAL STUDY OF CONV-TASNETabstractConv-TasNet是最近提出的基于波形的深度神经网络,可在语音源分离中实现最先进的性能。它的体系结构由可学习的编码器/解码器组成和一个在此学习空间之上运行的分离块。已建议对Conv-TasNet进行各种改进。但是,它们主要关注分隔符,而将其编码器/解码器保留为(浅)线性运算符。在本文中,我们对Conv-TasNet进行了实证研究,并提出了基于编码器/解码器(深度)非线性变体的增强功能。此外,我们使用更大,

2020-12-22 09:53:58 1833

翻译 论文研究12:DUAL-PATH RNN for audio separation

论文研究12:DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIONabstract基于深度学习的语音分离的最新研究证明了时域方法优于传统的基于时频的方法。与时频域方法不同,时域分离系统通常会接收包含大量时间步长的输入序列,这给建模超长序列带来了挑战。传统的递归神经网络(RNN)由于优化困难而无法有效地建模如此长的序列,而一维卷积神经网络(1-D CNN)的接收场小于

2020-12-22 09:53:11 3212 1

翻译 论文研究11:Audio-visual Speech Separation with Adversarially Disentangled Visual Representation

论文研究11:Audio-visual Speech Separation with Adversarially Disentangled Visual Representationabstract语音分离旨在从多个同时讲话者的音频混合中分离出单个语音。尽管仅音频方法具有令人满意的性能,但它们基于处理预定义条件的策略,从而限制了它们在复杂听觉场景中的应用。针对鸡尾酒会问题,我们提出了一种新颖的视听语音分离模型。在我们的模型中,我们使用面部检测器来检测场景中说话者的数量,并使用视觉信息来避免排列问题。为了

2020-12-18 09:36:26 1169

翻译 论文研究10:Audio-Visual Speech Separation and Dereverberation With a Two-Stage Multimodal Network

论文研究10:Audio-Visual Speech Separation and Dereverberation With a Two-Stage Multimodal Networkabstract背景噪音,干扰语音和房间混响经常会在实际收听环境中使目标语音失真。在这项研究中,我们着眼于联合语音分离和混响,其目的是将目标语音与背景噪声,干扰语音和房间混响分离开。为了解决这个根本上困难的问题,我们提出了一种利用音频和视频信号的新型多模态网络。所提出的网络体系结构采用两阶段策略,在第一阶段采用分离模块来

2020-12-16 15:52:47 1854

翻译 论文研究8 :MULTIPLE-TARGET DEEP LEARNING FOR LSTM-RNN BASED SPEECH ENHANCEMENT

论文研究8 :MULTIPLE-TARGET DEEP LEARNING FOR LSTM-RNN BASED SPEECH ENHANCEMENTABSTRACT在这项研究中,我们探索了用于语音增强的长短期记忆循环神经网络(LSTM-RNN)。 首先,提出了一种从噪声到清晰语音特征的直接映射的回归LSTM-RNN方法,并被证明比基于深度神经网络(DNN)的回归技术在建模长期声学环境方面更为有效。 然后,对建议的基于直接映射的LSTM-RNN和基于理想比率掩码(IRM)的LSTM-RNN进行了全面比较。

2020-12-15 09:30:27 800

翻译 论文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

论文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATIONabstract单声道信号源分离对于许多实际应用而言都是有用的,尽管这是一个具有挑战性的问题。 在本文中,我们研究了用于单声道语音分离的深度学习。 我们提出了使用额外的屏蔽层对深度学习模型(深度神经网络和递归神经网络)进行联合优化的方法,该方法会强制执行重构约束。 此外,我们探索了神经网络的判别训练准则,以进一步提高分离性能。 我们使用TIMIT语料对单声道语音分离任务进行评估。 与NMF模型相比,我们提

2020-12-11 21:15:58 555

翻译 论文研究6:SEEING THROUGH NOISE:VISUALLY DRIVEN SPEAKER SEPARATION AND ENHANCEMENT

论文研究6:SEEING THROUGH NOISE:VISUALLY DRIVEN SPEAKER SEPARATION AND ENHANCEMENTabstract当在嘈杂的环境中拍摄视频时,要在过滤其他声音或背景噪音的同时隔离特定人的声音具有挑战性。 我们提出了视听方法,以隔离单个说话人的声音并消除无关的声音。 首先,通过将无声视频帧通过基于视频到语音的神经网络模型,将视频中捕获的面部动作用于估计说话者的语音。 然后,将语音预测作为滤波器应用于有噪声的输入音频。 这种方法避免在学习过程中使用声音

2020-12-10 16:58:45 377

翻译 论文研究5:A Speaker-Independent Audio-Visual Model for Speech Separation

论文研究5:Looking to Listen at the Cocktail Party:A Speaker-Independent Audio-Visual Model for Speech Separationabstract我们提出了一种联合视听模型,用于从诸如其他说话人和背景噪声之类的声音混合中分离出单个语音信号。仅使用音频作为输入来解决该任务非常具有挑战性,并且不能提供分离的语音信号与视频中的说话人的关联。在本文中,我们提出了一个基于深度网络的模型,该模型结合了视觉和听觉信号来解决此任务。视

2020-12-09 22:10:21 2221

翻译 论文研究3:Visual Speech Enhancement

论文研究3:Visual Speech Enhancement使用说明:本文为音视频混合分离语音信号(语音增强)的一篇论文Abstract在嘈杂的环境中拍摄视频时,可以通过可见的嘴巴动作来增强视频中说话者的声音,从而减少背景噪音。 尽管大多数现有方法都使用纯音频输入,但是基于视听神经网络的视觉语音增强功能可以提高性能。我们在训练数据视频中添加了目标说话者的声音作为背景噪音。 由于音频输入不足以将讲话者的语音与他自己的声音分开,因此经过训练的模型可以更好地利用视觉输入并将其很好地归纳为不同的噪声类型

2020-12-07 20:37:43 669 1

翻译 论文研究2:Combining Residual Networks with LSTMs for Lipreading

论文研究2:Combining Residual Networks with LSTMs for Lipreading文章指南本翻译是应对作者论文研究1中,对唇部特征进行特征训练而用到的参考资料Abstract我们提出了用于字级视觉语音识别的端到端深度学习架构。 该系统是时空卷积,残差和双向长短期记忆网络的组合。 我们会在Lipreading的野外基准测试中对其进行训练和评估,该基准测试是一个具有挑战性的数据库,包含500个大小的目标词,包括来自BBC电视广播的1.28sec视频摘录。 拟议的网络可

2020-12-03 10:10:36 701 1

翻译 论文研究1:TIME DOMAIN AUDIO VISUAL SPEECH SEPARATION

论文研究1:TIME DOMAIN AUDIO VISUAL SPEECH SEPARATION本文指南本文翻译了腾讯于2019年发布的音视频混合的语音分离方法的论文《TIME DOMAIN AUDIO VISUAL SPEECH SEPARATION》。本文仅供参考。如有错误,烦请指正。ABSTRACT视听多模式建模已被证明在许多与语音相关的任务中是有效的,例如语音识别和语音增强。 本文介绍了一种新的时域视听架构,用于从单声道混合物中提取目标说话者。该体系结构概括了以前的TasNet(时域语音分离

2020-11-21 22:18:44 802

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除