Key Spotting 小总结【关键词搜索】【大部分源于interspeech和ICASSP】

最近转了方向,就看了一些NLP方面的文章,这里做的小总结

目录

A survey on structured discriminative spoken keyword spotting

SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS

Convolutional Neural Networks for Small-footprint Keyword Spotting

Query-by-example keyword spotting using long short-term memory networks

Hello Edge: Keyword Spotting on Microcontrollers

FEDERATED LEARNING FOR KEYWORD SPOTTING

Compressed time delay neural network for small-footprint keyword spotting

Multi-task learning and Weighted Cross-entropy for DNN-based Keyword Spotting

Unrestricted Vocabulary Keyword Spotting using LSTM-CTC

END-TO-END STREAMING KEYWORD SPOTTING

Model compression applied to small-footprint keyword spotting

Stochastic Adaptive Neural Architecture Search for Keyword Spotting


A survey on structured discriminative spoken keyword spotting

这是2019年的一篇综述,本身的文章类型等级不是很好,暂时还没引用。只是因为我对这个还不是很了解。所以提取出其中的几个知识点说明一下:

首先说一下他的大致步骤:

基于LVCSR的KWS包含两个阶段。首先,大型词汇语音识别器将大型音频档案转换为音素或单词格。在第二阶段,基于格的搜索将查找目标关键字集。(这种方法的文献都很老)

Direct KWS:KWS完全独立于语音识别任务。 搜索语音的最直观的方法是直接查找听起来像目标关键字的语音部分

 

常用数据集:Conversational Telephone Speech(CTS),Broadcast News(BN),Conference meeting(MTG),Read speech data。

评判标准: 一些非常少见的就没补

Real time factor(RTF):RT F = P/I。时间I的输入需要P时间。

True detection rate:判断正确/所有的

False alarm rate:Total False Acceptance/Total non-keywords Num,把不应该匹配的当成匹配的。

False alarm per hour per keyword:FAR/Total Keywords Num × Testset duration(H)

True rejection rate:Total True Rejection/Total non-keywords Num,把不应该匹配的当成不应该匹配的

False rejection rate:Total False Rejection/Total Keywords Num,把应该相互匹配成功的当成不能匹配的。

Precision:Total False Rejection/Total Keywords Num

SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS

这是2014年百度和谷歌联合发表在IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP, CCF B)的一篇文章,引用量259。一作是百度的Guoguo Chen,其他的两个作者是谷歌的。文章中提出了一种基于深度学习的、低能耗、低计算力、判别式的KWS方法——Deep KWS。这个方法大致包含三个部分,特征提取,深度网络和最后的Posterior Handling(后处理),特征提取就是常用的转换成向量的方法,深度网络可能就是用了一个比较浅的网络(实验中包括3层和6层两种类型),最后的后处理将基于帧预测概率做了一个转换为某个关键词的置信度,当置信度超过某个阈值就认为包含了

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值