自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 FILTERAUGMENT: AN ACOUSTIC ENVIRONMENTAL DATA AUGMENTATION METHOD

声学环境影响通过与声波传播进行物理交互来识别声音的声学特性。因此,在音频和语音任务中训练声学模型需要对各种声学环境进行正则化,以实现在实际应用中的稳健性能。我们提出了FilterAugment,这是一种用于对各种声学环境进行正则化的数据增强方法。FilterAugment模拟声学滤波器,通过在频段上应用不同的权重,使模型能够从更广泛的频率区域提取相关信息。它是频率屏蔽的改进版本,后者在随机频段上屏蔽信息。

2024-03-12 09:16:36 882 1

原创 SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

我们提出了SpecAugment,这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于Listen、Attend和Spell网络。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能,胜过了所有先前的工作。

2024-03-11 22:21:46 1113

原创 Frequency Dynamic Convolution: Frequency-Adaptive Pattern Recognition for Sound Event Detection

2D卷积在声音事件检测(SED)中被广泛使用,用于识别声音事件的二维时频模式。然而,2D卷积在声音事件上施加了沿时间和频率轴的平移等变性,而频率不是平移不变的维度。为了改善2D卷积在SED中的物理一致性,我们提出了频率动态卷积,它应用于适应输入频率分量的核。在DESED验证数据集中,频率动态卷积的多音声音检测分数(PSDS)比基准提高了6.3%。它还在SED上明显优于其他现有的内容自适应方法。

2024-03-02 15:42:39 1286

原创 MULTI-DIMENSIONAL FREQUENCY DYNAMIC CONVOLUTION WITH CONFIDENT MEAN TEACHER FOR SED

近期,卷积神经网络(CNNs)在声音事件检测(SED)中得到了广泛应用。然而,传统的卷积在学习不同声音事件的时频域表示方面存在不足。为了解决这个问题,我们提出了多维频率动态卷积(MFDConv),这是一种新的设计,使卷积核具有沿多个维度的频率自适应动态属性。MFDConv利用一种新颖的多维注意力机制和并行策略来学习互补的频率自适应注意力,这大大增强了卷积核的特征提取能力。此外,为了提高平均教师模型的性能,我们提出了自信平均教师模型,以提高教师产生的伪标签的准确性,并用高置信度标签来训练学生模型。

2024-03-02 11:43:09 964

原创 Mean teachers are better role models

最近提出的Temporal Ensembling在几个半监督学习基准测试中取得了最先进的结果。它在每个训练样本上保持标签预测的指数移动平均,并惩罚与该目标不一致的预测。然而,由于目标只在每个epoch变化一次,当学习大型数据集时,Temporal Ensembling变得笨重。为了克服这个问题,我们提出了Mean Teacher,一种对模型权重进行平均而不是对标签预测的方法。

2024-02-27 08:22:11 1285

原创 SpecAugment: A Simple Data Augmentation Methodfor Automatic Speech Recognition

SpecAugment是一种简单的数据增强方法,用于语音识别。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括对特征进行扭曲、屏蔽频率通道块和屏蔽时间步长块。我们在端到端语音识别任务的Listen, Attend and Spell网络上应用了SpecAugment。在LibriSpeech 960h和Swichboard 300h任务上,我们实现了最先进的性能,超越了所有先前的工作。

2024-02-16 17:13:24 1001 1

原创 AST: Audio Spectrogram Transformer

在过去的十年中,卷积神经网络(CNN)已经被广泛应用于端到端音频分类模型的主要构建模块,旨在学习从音频频谱图到相应标签的直接映射。为了更好地捕捉长程全局上下文,最近的趋势是在CNN之上添加自注意机制,形成一个CNN-attention混合模型。然而,目前尚不清楚是否有必要依赖CNN,并且纯粹基于注意力的神经网络是否足以在音频分类中获得良好的性能。本文通过引入音频频谱图变换器(AST)回答了这个问题,AST是第一个无卷积、纯粹基于注意力的音频分类模型。

2024-02-16 15:07:01 1043 1

原创 HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMERFOR SOUND CLASSIFICATION AND DETECTION

音频分类是将音频样本映射到相应标签的重要任务。最近,在这个领域中采用了具有自注意机制的Transformer模型。然而,现有的音频Transformer模型需要大量的GPU内存和长时间的训练,并且依赖于预训练的视觉模型以实现高性能,这限制了模型在音频任务中的可扩展性。为了解决这些问题,我们引入了HTS-AT:一种具有分层结构的音频Transformer,以减小模型大小和训练时间。它还结合了一个词元-语义模块,将最终输出映射到类别特征图,从而使得模型能够进行音频事件检测(即时间定位)。

2024-02-12 11:00:14 1282 1

原创 蓝桥杯嵌入式(二):从点亮LED开始

不管是玩什么芯片,点灯都是一个绕不开的话题。在蓝桥杯的嵌入式比赛中,几乎每一年的省赛都涉及到与LED有关的设计。点灯说白了也很简单,无非就是分为点亮一个灯、点亮多个灯以及流水灯和灯闪烁等等情况。接下来本文将会分别讲解如何实现上述功能。

2024-02-11 22:46:11 2439 1

原创 蓝桥杯嵌入式(一):基础工程配置

蓝桥杯嵌入式仅需要两个软件,分别是Keil MDK和STM32CubeMX。简单来说,Keil是用来写代码的,cubeMX则是用来生成HAL库代码的。下载完之后一直点击下一步即可完成安装,如果出现下载太慢等问题,可以找我获取相关资源。软件安装完成后,还需要安装两个包,一个是Keil所需的,一个是CUbeMX所需的固件包,安装方法为:点击菜单栏的Help,选中Manage embedded software packages,之后选择G4系列即可。

2024-02-10 19:03:36 710 1

原创 RTOS学习笔记(二):FreeRTOS移植

提供的例程基于FreeRTOS的V10.4.6版本。

2024-02-09 23:20:57 573 1

原创 Attention Is All You Need

目前主流的序列转换模型基于包含编码器和解码器的复杂循环或卷积神经网络。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,Transformer,完全基于注意力机制,完全摒弃了循环和卷积。在两个机器翻译任务上的实验显示,这些模型在质量上更胜一筹,同时具有更高的并行化能力,并且训练时间大大减少。我们的模型在WMT 2014英语到德语翻译任务上达到了28.4 BLEU,比现有的最佳结果(包括集成模型)提高了2个以上的BLEU分数。

2024-02-08 09:30:00 2508

原创 RTOS学习笔记(一):FreeRTOS简介

实时操作系统(RTOS)是一种专为管理实时应用程序的需求而设计的操作系统。它允许系统以可预测的方式处理事件或数据,确保对特定任务的响应时间和处理时间都能满足严格的时间限制。本篇笔记主要是对FreeRTOS的一个简单介绍

2024-02-07 14:46:41 833

原创 Data Augmentation and Deep Learning Methods in SoundClassification: A Systematic Review

这篇系统文献综述(SLR)的目标是识别并对小数据和使用数据增强方法来增加用于声音(包括语音、讲话和相关音频信号)分类的深度学习分类器所需数据量的当前研究进展进行批判性评价。方法论:本文采用基于PRISMA的标准SLR指南进行,检索了三个文献数据库,分别是Web of Science、SCOPUS和IEEE Xplore。研究结果:通过使用多种关键词组合在过去五年(2017年至2021年)进行的初步检索共找到了131篇论文。

2024-02-06 19:54:16 1786

原创 Deep Learning for Audio Signal Processing

最近深度学习的发展势头迅猛,本文对音频信号处理领域的最新深度学习技术进行了综述。文章将语音、音乐和环境声音处理并列考虑,以指出这些领域之间的相似性和差异性,突出总结了常用的方法、问题、重要参考文献,并探讨了各领域之间的相互交叉借鉴的潜力。综述了主要的特征表示方法(尤其是对数-梅尔谱和原始波形)和深度学习模型,包括卷积神经网络、长短时记忆网络的变体,以及更加符合音频特性的神经网络模型。

2024-02-05 18:31:37 728

蓝桥杯嵌入式开发板手册.zip

蓝桥杯嵌入式开发板产品手册,包含开发板的硬件设计和原理图资源。非常详细的列举了开发板的硬件资源,适合蓝桥杯嵌入式比赛使用。

2024-02-11

《声音分类中的数据增强和深度学习方法:系统综述》

这篇系统文献综述(SLR)的目标是识别并对小数据和使用数据增强方法来增加用于声音(包括语音、讲话和相关音频信号)分类的深度学习分类器所需数据量的当前研究进展进行批判性评价。方法论:本文采用基于PRISMA的标准SLR指南进行,检索了三个文献数据库,分别是Web of Science、SCOPUS和IEEE Xplore。研究结果:通过使用多种关键词组合在过去五年(2017年至2021年)进行的初步检索共找到了131篇论文。为了选择符合本研究范围的相关文章,我们采用了一些筛选排除标准和前后向雪球采样,最终选定了56篇文章。独创性:以往研究存在的不足包括数据不足、标注不够准确的数据、不平衡的数据集、嘈杂的数据集、声音特征呈现不佳以及缺乏有效的增强方法,从而影响了分类器的整体性能,我们在本文中进行了讨论。在对鉴定的文章进行分析后,我们概述了声音数据集、特征提取方法、数据增强技术及其在声音分类研究问题中的应用。最后,我们总结了SLR的摘要,回答了研究问题,并对声音分类任务提出了建议。

2024-02-06

Deep Learning for Audio Signal Processing译文

Deep Learning for Audio Signal Processing的译文 摘要 最近深度学习的发展势头迅猛,本文对音频信号处理领域的最新深度学习技术进行了综述。文章将语音、音乐和环境声音处理并列考虑,以指出这些领域之间的相似性和差异性,突出总结了常用的方法、问题、重要参考文献,并探讨了各领域之间的相互交叉借鉴的潜力。综述了主要的特征表示方法(尤其是对数-梅尔谱和原始波形)和深度学习模型,包括卷积神经网络、长短时记忆网络的变体,以及更加符合音频特性的神经网络模型。随后,重点介绍了深度学习在音频信号处理中的应用领域,包括音频识别(自动语音识别、音乐信息检索、环境声音检测、定位和跟踪)以及合成和转换(音源分离、音频增强、生成模型用于语音、声音和音乐合成)。最后,确定了深度学习应用于音频信号处理领域的关键问题和未来研究方向。

2024-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除