关键词识别

本文主要介绍了关键词识别的相关工作,详细阐述了在这个领域的研究进展和技术应用。
摘要由CSDN通过智能技术生成
Transformer 架构在许多领域都取得了成功,包括自然语言处理、计算机视觉和语音识别。在关键字发现中,自我注意主要用于卷积或循环编码器之上。我们研究了一系列使 Transformer 架构适应关键字发现的方法,并引入了 Keyword Transformer (KWT),这是一种完全自我注意的架构,无需任何预训练或额外数据即可在多个任务中超越最先进的性能.令人惊讶的是,这种简单的架构优于混合卷积、循环和注意力层的更复杂模型。 KWT 可以作为这些模型的替代品,在 Google Speech Commands 数据集上设置了两项新的基准记录,在 12 和 35 条命令任务上的准确率分别为 98.6% 和 97.7%。1 
关键词:语音识别、关键字发现,Transformer 
1. 介绍 
最近在机器学习方面的工作表明,由 Vaswani 等人首先介绍的Transformer架构。 [1],不仅在语言处理方面具有竞争力,而且在例如图像分类,[2, 3, 4],图像着色 [5],物体检测 [6],自动语音识别 [7, 8, 9],视频分类 [10] 和多智能体时空建模 [11]。这可以从更广泛的趋势中看出,在这种趋势下,单个神经网络架构可以泛化到数据和任务的多个领域。注意力机制也被用于关键字发现 [12, 13],但只是作为其他架构的扩展,例如卷积或循环神经网络。受计算机视觉中简单的 Vision Transformer (ViT) 模型 [2] 的优势以及提高其数据效率 [3] 的技术的启发,我们建议对该架构进行调整以进行关键字识别,并发现它匹配或优于小得多的 Google Speech Commands 数据集 [14] 上的现有模型,无需额外数据。我们总结了我们的主要贡献如下: 

图 1:关键字转换器架构。音频被预处理为梅尔尺度频谱图&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值