Key Spotting 小总结【关键词搜索】【大部分源于interspeech和ICASSP】

最新推荐文章于 2024-05-30 10:09:40 发布

凡凡.cs

最新推荐文章于 2024-05-30 10:09:40 发布

阅读量1.8k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fanyuwgy/article/details/106901478

版权

本文总结了NLP领域关键词识别的研究，涉及直接关键词识别方法、深度学习模型如CNN、LSTM的应用，以及在微控制器上的实现、联邦学习、模型压缩等技术。关键词识别任务在不同数据集上取得显著效果，例如使用LSTM提高识别准确性和鲁棒性，通过CNN减少计算量，以及在资源受限设备上的实时应用。

摘要由CSDN通过智能技术生成

最近转了方向，就看了一些NLP方面的文章，这里做的小总结

目录

A survey on structured discriminative spoken keyword spotting

SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS

Convolutional Neural Networks for Small-footprint Keyword Spotting

Query-by-example keyword spotting using long short-term memory networks

Hello Edge: Keyword Spotting on Microcontrollers

FEDERATED LEARNING FOR KEYWORD SPOTTING

Compressed time delay neural network for small-footprint keyword spotting

Multi-task learning and Weighted Cross-entropy for DNN-based Keyword Spotting

Unrestricted Vocabulary Keyword Spotting using LSTM-CTC

END-TO-END STREAMING KEYWORD SPOTTING

Model compression applied to small-footprint keyword spotting

Stochastic Adaptive Neural Architecture Search for Keyword Spotting

A survey on structured discriminative spoken keyword spotting

这是2019年的一篇综述，本身的文章类型等级不是很好，暂时还没引用。只是因为我对这个还不是很了解。所以提取出其中的几个知识点说明一下：

首先说一下他的大致步骤：

基于LVCSR的KWS包含两个阶段。首先，大型词汇语音识别器将大型音频档案转换为音素或单词格。在第二阶段，基于格的搜索将查找目标关键字集。（这种方法的文献都很老）

Direct KWS：KWS完全独立于语音识别任务。搜索语音的最直观的方法是直接查找听起来像目标关键字的语音部分

常用数据集：Conversational Telephone Speech(CTS)，Broadcast News(BN)，Conference meeting(MTG)，Read speech data。

评判标准：一些非常少见的就没补

Real time factor(RTF)：RT F = P/I。时间I的输入需要P时间。

True detection rate：判断正确/所有的

False alarm rate：Total False Acceptance/Total non-keywords Num，把不应该匹配的当成匹配的。

False alarm per hour per keyword：FAR/Total Keywords Num × Testset duration(H)

True rejection rate：Total True Rejection/Total non-keywords Num，把不应该匹配的当成不应该匹配的

False rejection rate：Total False Rejection/Total Keywords Num，把应该相互匹配成功的当成不能匹配的。

Precision：Total False Rejection/Total Keywords Num

SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS

这是2014年百度和谷歌联合发表在IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP, CCF B)的一篇文章，引用量259。一作是百度的Guoguo Chen，其他的两个作者是谷歌的。文章中提出了一种基于深度学习的、低能耗、低计算力、判别式的KWS方法——Deep KWS。这个方法大致包含三个部分，特征提取，深度网络和最后的Posterior Handling（后处理），特征提取就是常用的转换成向量的方法，深度网络可能就是用了一个比较浅的网络（实验中包括3层和6层两种类型），最后的后处理将基于帧预测概率做了一个转换为

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。