Speech Recognition
文章平均质量分 56
ccdous
这个作者很懒,什么都没留下…
展开
-
language model
(4)有一个问题就是,给的样本虽然说很大,但是不可能涵盖所有的语言,所以有些P即使在样本中没有找到P也不应该写为0,给一个小概率。b、将LM训练到softmax之前的,dimension跟tokensize相同的输出放到Network中,这样就可以更换LM了。对于不同的输入情况,可能需要不同的LM,所以下面改进。a、输入为所有的token的h作为的输入向量(如果要训练dog,就只将dog的部分设为1,其他为0)a、LM已经训练好了,LAS还没训练好,再将Network训练好,这样可以加快LAS的训练速度。原创 2024-08-15 15:04:08 · 375 阅读 · 0 评论 -
加和分数、训练、测试
(1)αi,j:将读了i个声学特征和输出j个token的所有alignment分数加和起来,表中每一个各自都对应着一个α。6、也就是使用训练好的RNN(例如),run,找出几率最大的distribution作为h^*,当然也可以使用束搜索。(3)引入βi,j:有点像αi,j的相反,将所有产生i个声学特征和j个token的alignment的分数加和起来。3、为了简化计算进行改进:对于不同的Y,找出对应的每一个alignment最大分数的h。2、l_i只与token有关,有一个专门训练的网络;原创 2024-08-15 00:46:39 · 253 阅读 · 0 评论 -
Alignment
c、训练时需要找到得到概率结果最大的network的参数,就需要计算梯度下降,怎么样做梯度下降。二、穷举所有有可能的alignment操作(举例:tokenN = 3为c、a、t,声学特征T = 6)插在前面的位置的null都没关系,但输出的alignment最后一个一定要是null。4、CTC、RNN-T要计算P(X|Y)依赖于要知道alignment(下图以CTC为例)3、training,就是要找到得到概率结果最大的network的参数。d、特殊情况(两个相同的token连在一起的情况)原创 2024-08-14 22:56:50 · 153 阅读 · 0 评论 -
Hidden Marlov Model(HMM)
1、Tandem:语音辨识HMM系统不变,唯一变化的是使用DNN(state classifer)给我们比较好的state(从声学特征到state),其他不变。c、如果想要更精确,可以使用训练出来的更精确的classifier作为寻找state与声学特征对应关系的Model,训练处DNN2。1、将声学特征设为X,经过语音识别得到的tokens设为Y,目标是找到通过X得到Y的最大概率,可以通过概率公式改变为。1、Transition Probability:从一个state转化为别的state的可能性。原创 2024-08-14 10:03:31 · 327 阅读 · 0 评论 -
other model
3、在online中:encode将h_i输出,h_i丢到一个线性的Classifier中可以得到当前的token的distribution。4、还可以得到over整个token的distribution,将h进行transform,再做softmax得到。1、给一个h_i输出多个token,直到model觉得自己输出完了,输出一个null;(2)输出的token中含有null,将重复的token合并,移除null。6、训练的时候要自己自造情况进行输出,然后训练,这里穷举了。2、现在窗口可以是不固定的了。原创 2024-08-13 11:27:13 · 309 阅读 · 0 评论 -
LAS_Listen,Attend,Spell
2、常用用法:c0作为decoder(RNN)的输入,通过隐藏层会得到z1,经过transform得到distribution,用distribution选取可能的输出词语(max概率最高的)。4、Decoder(通常是使用 RNN单元)会通过前一个时间步的隐藏状态、生成的标记(token)和"Attend"环节的输出(即上下文向量)来计算新的隐藏状态。2、decoder可以使用RNN、CNN、自注意力机制等方法,文献中常把CNN与RNN综合使用,有使用自注意力机制方法的趋势。原创 2024-08-12 10:49:02 · 419 阅读 · 0 评论 -
Speech Recognition
4、morpheme:最小的有意义的单元(比如词根),比使用word少,多于使用grapheme:需要语言学家或统计学家得出。(1)英文单词,N为长度,V为字符集数量,这里的+是加上了标点符号和空格。1、phoneme:发音的具体单位,可以类似为音标,早期最常用。三、语音+不同算法的应用:语音识别、翻译、目的性分类、空位填充。一、语音处理比文字处理样本数多很多(T>>N)2、样本点个数十分大量,维度也有不同的选择方式。3、word(几乎没有办法计算V的大小)2、grapheme:书写的基本单位。原创 2024-08-12 09:40:33 · 254 阅读 · 0 评论 -
Introduction
(1)自回归:模型在生成文本时,每一步生成的词或标记(token)都依赖于之前生成的词或标记;(2)非自回归:在生成文本时,各个词或标记的生成是并行进行的,生成的每个词不依赖于之前生成的词;6、我主要不知道的是语音到class的过程。7、对于输入时文字的使用的算法,主要有BERT和他的朋友们,训练集是越来越大的。4、文字到语音是语音合成_TTS过程(只是简单举一个算法过程的例子)1、人类语音非常复杂,同样的人说同一句话话音频也很可能是不一样的。9、文字转化为文字的操作:比如翻译、概括摘要、对话、回答问题。原创 2024-08-11 23:38:01 · 218 阅读 · 0 评论