- 博客(15)
- 收藏
- 关注
原创 FILTERAUGMENT: AN ACOUSTIC ENVIRONMENTAL DATA AUGMENTATION METHOD
声学环境影响通过与声波传播进行物理交互来识别声音的声学特性。因此,在音频和语音任务中训练声学模型需要对各种声学环境进行正则化,以实现在实际应用中的稳健性能。我们提出了FilterAugment,这是一种用于对各种声学环境进行正则化的数据增强方法。FilterAugment模拟声学滤波器,通过在频段上应用不同的权重,使模型能够从更广泛的频率区域提取相关信息。它是频率屏蔽的改进版本,后者在随机频段上屏蔽信息。
2024-03-12 09:16:36 882 1
原创 SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition
我们提出了SpecAugment,这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于Listen、Attend和Spell网络。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能,胜过了所有先前的工作。
2024-03-11 22:21:46 1113
原创 Frequency Dynamic Convolution: Frequency-Adaptive Pattern Recognition for Sound Event Detection
2D卷积在声音事件检测(SED)中被广泛使用,用于识别声音事件的二维时频模式。然而,2D卷积在声音事件上施加了沿时间和频率轴的平移等变性,而频率不是平移不变的维度。为了改善2D卷积在SED中的物理一致性,我们提出了频率动态卷积,它应用于适应输入频率分量的核。在DESED验证数据集中,频率动态卷积的多音声音检测分数(PSDS)比基准提高了6.3%。它还在SED上明显优于其他现有的内容自适应方法。
2024-03-02 15:42:39 1286
原创 MULTI-DIMENSIONAL FREQUENCY DYNAMIC CONVOLUTION WITH CONFIDENT MEAN TEACHER FOR SED
近期,卷积神经网络(CNNs)在声音事件检测(SED)中得到了广泛应用。然而,传统的卷积在学习不同声音事件的时频域表示方面存在不足。为了解决这个问题,我们提出了多维频率动态卷积(MFDConv),这是一种新的设计,使卷积核具有沿多个维度的频率自适应动态属性。MFDConv利用一种新颖的多维注意力机制和并行策略来学习互补的频率自适应注意力,这大大增强了卷积核的特征提取能力。此外,为了提高平均教师模型的性能,我们提出了自信平均教师模型,以提高教师产生的伪标签的准确性,并用高置信度标签来训练学生模型。
2024-03-02 11:43:09 964
原创 Mean teachers are better role models
最近提出的Temporal Ensembling在几个半监督学习基准测试中取得了最先进的结果。它在每个训练样本上保持标签预测的指数移动平均,并惩罚与该目标不一致的预测。然而,由于目标只在每个epoch变化一次,当学习大型数据集时,Temporal Ensembling变得笨重。为了克服这个问题,我们提出了Mean Teacher,一种对模型权重进行平均而不是对标签预测的方法。
2024-02-27 08:22:11 1285
原创 SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition
SpecAugment是一种简单的数据增强方法,用于语音识别。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括对特征进行扭曲、屏蔽频率通道块和屏蔽时间步长块。我们在端到端语音识别任务的Listen, Attend and Spell网络上应用了SpecAugment。在LibriSpeech 960h和Swichboard 300h任务上,我们实现了最先进的性能,超越了所有先前的工作。
2024-02-16 17:13:24 1001 1
原创 AST: Audio Spectrogram Transformer
在过去的十年中,卷积神经网络(CNN)已经被广泛应用于端到端音频分类模型的主要构建模块,旨在学习从音频频谱图到相应标签的直接映射。为了更好地捕捉长程全局上下文,最近的趋势是在CNN之上添加自注意机制,形成一个CNN-attention混合模型。然而,目前尚不清楚是否有必要依赖CNN,并且纯粹基于注意力的神经网络是否足以在音频分类中获得良好的性能。本文通过引入音频频谱图变换器(AST)回答了这个问题,AST是第一个无卷积、纯粹基于注意力的音频分类模型。
2024-02-16 15:07:01 1043 1
原创 HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMERFOR SOUND CLASSIFICATION AND DETECTION
音频分类是将音频样本映射到相应标签的重要任务。最近,在这个领域中采用了具有自注意机制的Transformer模型。然而,现有的音频Transformer模型需要大量的GPU内存和长时间的训练,并且依赖于预训练的视觉模型以实现高性能,这限制了模型在音频任务中的可扩展性。为了解决这些问题,我们引入了HTS-AT:一种具有分层结构的音频Transformer,以减小模型大小和训练时间。它还结合了一个词元-语义模块,将最终输出映射到类别特征图,从而使得模型能够进行音频事件检测(即时间定位)。
2024-02-12 11:00:14 1282 1
原创 蓝桥杯嵌入式(二):从点亮LED开始
不管是玩什么芯片,点灯都是一个绕不开的话题。在蓝桥杯的嵌入式比赛中,几乎每一年的省赛都涉及到与LED有关的设计。点灯说白了也很简单,无非就是分为点亮一个灯、点亮多个灯以及流水灯和灯闪烁等等情况。接下来本文将会分别讲解如何实现上述功能。
2024-02-11 22:46:11 2439 1
原创 蓝桥杯嵌入式(一):基础工程配置
蓝桥杯嵌入式仅需要两个软件,分别是Keil MDK和STM32CubeMX。简单来说,Keil是用来写代码的,cubeMX则是用来生成HAL库代码的。下载完之后一直点击下一步即可完成安装,如果出现下载太慢等问题,可以找我获取相关资源。软件安装完成后,还需要安装两个包,一个是Keil所需的,一个是CUbeMX所需的固件包,安装方法为:点击菜单栏的Help,选中Manage embedded software packages,之后选择G4系列即可。
2024-02-10 19:03:36 710 1
原创 Attention Is All You Need
目前主流的序列转换模型基于包含编码器和解码器的复杂循环或卷积神经网络。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,Transformer,完全基于注意力机制,完全摒弃了循环和卷积。在两个机器翻译任务上的实验显示,这些模型在质量上更胜一筹,同时具有更高的并行化能力,并且训练时间大大减少。我们的模型在WMT 2014英语到德语翻译任务上达到了28.4 BLEU,比现有的最佳结果(包括集成模型)提高了2个以上的BLEU分数。
2024-02-08 09:30:00 2508
原创 RTOS学习笔记(一):FreeRTOS简介
实时操作系统(RTOS)是一种专为管理实时应用程序的需求而设计的操作系统。它允许系统以可预测的方式处理事件或数据,确保对特定任务的响应时间和处理时间都能满足严格的时间限制。本篇笔记主要是对FreeRTOS的一个简单介绍
2024-02-07 14:46:41 833
原创 Data Augmentation and Deep Learning Methods in SoundClassification: A Systematic Review
这篇系统文献综述(SLR)的目标是识别并对小数据和使用数据增强方法来增加用于声音(包括语音、讲话和相关音频信号)分类的深度学习分类器所需数据量的当前研究进展进行批判性评价。方法论:本文采用基于PRISMA的标准SLR指南进行,检索了三个文献数据库,分别是Web of Science、SCOPUS和IEEE Xplore。研究结果:通过使用多种关键词组合在过去五年(2017年至2021年)进行的初步检索共找到了131篇论文。
2024-02-06 19:54:16 1786
原创 Deep Learning for Audio Signal Processing
最近深度学习的发展势头迅猛,本文对音频信号处理领域的最新深度学习技术进行了综述。文章将语音、音乐和环境声音处理并列考虑,以指出这些领域之间的相似性和差异性,突出总结了常用的方法、问题、重要参考文献,并探讨了各领域之间的相互交叉借鉴的潜力。综述了主要的特征表示方法(尤其是对数-梅尔谱和原始波形)和深度学习模型,包括卷积神经网络、长短时记忆网络的变体,以及更加符合音频特性的神经网络模型。
2024-02-05 18:31:37 728
《声音分类中的数据增强和深度学习方法:系统综述》
2024-02-06
Deep Learning for Audio Signal Processing译文
2024-02-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人