语音识别
文章平均质量分 54
今天学习算法了吗
这个作者很懒,什么都没留下…
展开
-
自然语言处理之语音识别(2)
上一节介绍的是LAS模型,标准的seq2seq model,因为decoder每一步其实考虑的是全部的encoder的输出,所以没办法做到online的输出。因此今天看的模型都是为了做online产生的。先上一张李宏毅老师的模型总结图:从上到下,从左到右其实是可以发现模型发展的一些规律的。1. 语音的特点:因为语音的输入vector个数很多,但不一定每一个都会产生输出,所以采用的方法有:1)在vocab中增加,表示该语音输入不对应任何输出。这种方法在训练的时候很麻烦,因为数据集中的labe.原创 2021-11-06 21:41:39 · 2572 阅读 · 0 评论 -
NLP基础知识之语音识别
1. 语音识别的输出类别:1)phoneme:输出为发音,比较简单,因为语音跟发音是一一对应的,但是需要一个词汇表,表示发音跟word的对应。2)Grapheme:字母或者token3)word:短语,V会很大4)morpheme:代表含义的最小单位5)byte:utf-8,适用于任何语言2. 输入特征:(具体的处理可以看下图,以MFCC为例子,如果不经过DCT,就是目前用的最普遍的fliter bank output)3. 那确定了输入以及输出,接下来介绍中间的模型。.原创 2021-11-05 16:35:53 · 3363 阅读 · 1 评论