最近转了方向,就看了一些NLP方面的文章,这里做的小总结
目录
A survey on structured discriminative spoken keyword spotting
SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS
Convolutional Neural Networks for Small-footprint Keyword Spotting
Query-by-example keyword spotting using long short-term memory networks
Hello Edge: Keyword Spotting on Microcontrollers
FEDERATED LEARNING FOR KEYWORD SPOTTING
Compressed time delay neural network for small-footprint keyword spotting
Multi-task learning and Weighted Cross-entropy for DNN-based Keyword Spotting
Unrestricted Vocabulary Keyword Spotting using LSTM-CTC
END-TO-END STREAMING KEYWORD SPOTTING
Model compression applied to small-footprint keyword spotting
Stochastic Adaptive Neural Architecture Search for Keyword Spotting
A survey on structured discriminative spoken keyword spotting
这是2019年的一篇综述,本身的文章类型等级不是很好,暂时还没引用。只是因为我对这个还不是很了解。所以提取出其中的几个知识点说明一下:
首先说一下他的大致步骤:
基于LVCSR的KWS包含两个阶段。首先,大型词汇语音识别器将大型音频档案转换为音素或单词格。在第二阶段,基于格的搜索将查找目标关键字集。(这种方法的文献都很老)
Direct KWS:KWS完全独立于语音识别任务。 搜索语音的最直观的方法是直接查找听起来像目标关键字的语音部分
常用数据集:Conversational Telephone Speech(CTS),Broadcast News(BN),Conference meeting(MTG),Read speech data。
评判标准: 一些非常少见的就没补
Real time factor(RTF):RT F = P/I。时间I的输入需要P时间。
True detection rate:判断正确/所有的
False alarm rate:Total False Acceptance/Total non-keywords Num,把不应该匹配的当成匹配的。
False alarm per hour per keyword:FAR/Total Keywords Num × Testset duration(H)
True rejection rate:Total True Rejection/Total non-keywords Num,把不应该匹配的当成不应该匹配的
False rejection rate:Total False Rejection/Total Keywords Num,把应该相互匹配成功的当成不能匹配的。
Precision:Total False Rejection/Total Keywords Num
SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS
这是2014年百度和谷歌联合发表在IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP, CCF B)的一篇文章,引用量259。一作是百度的Guoguo Chen,其他的两个作者是谷歌的。文章中提出了一种基于深度学习的、低能耗、低计算力、判别式的KWS方法——Deep KWS。这个方法大致包含三个部分,特征提取,深度网络和最后的Posterior Handling(后处理),特征提取就是常用的转换成向量的方法,深度网络可能就是用了一个比较浅的网络(实验中包括3层和6层两种类型),最后的后处理将基于帧预测概率做了一个转换为