active learning for speech recognition
概述一些语音识别领域的主动学习方法
Semi-supervised and active-learning scenarios: Efficient acoustic model refinement for a low resource Indian language, INTERSPEECH 2018
使用的任务模型是:DNN-HMM framework trained using Kaldi and with word level trigram language models(常用的语言模型).
使用confidence level(每个词段的后验概率,相当于在解码中对齐的词级标签。)作为评价样本信息量的度量
active learning for automatic speech recognition, ICASSP2002
混淆集中的每个单词的后验概率是包含该实例的所有路径的概率之和,而混淆集中所有单词的后验概率之和等于1。把单词的后验概率,当作单词的 confidence score,可以采用不同的方法F组合单词的概率得到语句级别的
confidence scor:
F可以是几何平均,加权平均,min