综合-语音识别
文章平均质量分 74
语音识别
Sarah ฅʕ•̫͡•ʔฅ
勿忘初心
展开
-
Speech recognition模型:MoChA(Monotonic Chunkwise Attention)
与NT相比,MoChA中,window的长度是可变的,每一个step中,window的长度由一个model决定。该模型的工作原理如下:给定zi,以及acoustic feature,将其进model,判断window是否停止生长,如果为否,则继续将zi和下一个acoustic feature输入model,判断window是否生长,如果为否,则停止生长,将之前的所有acoustic featue都框到window中,进行encode,decode。原创 2022-10-17 14:15:59 · 734 阅读 · 0 评论 -
Speech recognition模型:RNN Transducer(RNN-T)
2,在output(token)上方,加了一个RNN,其input为token,当token为null时,则自动将其忽略。1,原始的训练数据为(语音,文本)对,但是,实际的模型训练时,需要的训练数据为paired train data,即(acoustic feature,token),所以,需要对训练数据进行alignment。1,RNA中,将CTC的classifier改为了一个LSTM,使得模型在分类时,不单考虑了当下time step的h,同时也考虑了前一个time step的token。原创 2022-10-17 13:51:03 · 1100 阅读 · 0 评论 -
Speech Recognition模型:Connectionist Temporal Classification(CTC)
上面提到的CTC工作原理,input和output是成对出现的,即 acoustic feature和token是成对出现的,而我们在实际中得到的train data通常为 (语音,译本),无法细化到(acoustic feature, token),在实际中,我们可以穷举所有可能的 (acoustic feature, token)对,用于CTC的训练。LAS由encoder和decoder组成,在构建LAS模型时,我们可以将CTC嫁接在LAS的encoder上,从而达到LAS和CTC的结合。原创 2022-10-15 22:32:56 · 941 阅读 · 0 评论 -
Speech Recognition模型:Listen, Attend and Spell (LAS)
LAS 模型有 encoder , decoder 两部分组成,encoder 部分主要用来听,decoder部分 输出听到的东西。原创 2022-08-23 16:23:50 · 930 阅读 · 0 评论 -
语音识别中输入输出的可能形式有哪些
拿到10ms的语音数据后,常会利用一定大小的window将语音数据 切分成 若干份(在语音识别中,由window生成的一份语音片段被称为frame),每份语音片段在 通过 特定的数据转换方式(如:MFCC) 转成 feature,最后 在所有这些转化后的features拼接起来 作为 最终输入model 的 input。对于英文来讲,由于不同的词之间会以空格分开,因此,分词很easy,但是,在外文中,word是可以被创造的,这也意味着 vocabulary 可能需要无限延长。原创 2022-08-22 21:11:54 · 1473 阅读 · 0 评论