语音处理
mlxaaa
这个作者很懒,什么都没留下…
展开
-
李宏毅语音识别课程摘要
语音识别Overview语音识别输出的数据类型(Token)分类Phoneme:发音的基本单位(类似于音标)需要一个lexicon记录word与phonemes的对应关系:Grapheme:书写的基本单位中文:一个字英文:26个英文单词无需lexicon的映射关系word:词不同语言的词汇都非常的多-morpheme:有意义的基本单位(长度在word和grapheme之间)例如unbreakable的morepheme可以拆分成:“un” “break” “abl原创 2020-11-05 17:08:26 · 639 阅读 · 0 评论 -
从零开始语音识别(5)--- 端到端的语音识别系统
为什么需要端到端的系统传统语音识别系统非常复杂,需要分别训练声学模型、语言模型、发音模型需要领域特殊的专业知识通过端到端的模型可以直接将输入的声学特征转变为文本端到端语音识别系统介绍Seq2Seq此模型长用于机器翻译、语音识别。其优点是输入输出不需要等长,而且两者长度不固定。此模型包含两个RNN结构,分别用于编码与解码。Decoder网络直到解码的序列是END才停止,因此可以实现变长的输出。Encoder将输入进行编码,将整个输入的隐状态输入给Decoder,可以实现输入的变长。原创 2020-09-18 15:30:14 · 2108 阅读 · 0 评论 -
从零开始语音识别(4)--- HMM算法详解
GMM只能针对单个样本(变量)进行建模,当把随机变量延伸到随机序列的时候,就需要通过HMM模型进行估计。HMM基本组成:HMM由初始概率分布(π\piπ)、状态转移概率分布(A)、观测概率分布决定(B), A,B,π\piπ是HMM的三要素当HMM的观测概率分布是由混合告诉模型GMM表示时,称之为GMM-HMM模型。HMM的三个基本问题:概率计算问题:直接计算法前向算法:后向算法:预测算法:Viterbi算法:3. 学习算法:Viterbi学习算法:Baum-We原创 2020-09-16 17:28:36 · 636 阅读 · 0 评论 -
从零开始语音识别(3)--- GMM与EM算法
高斯分布多维的高斯分布形式高斯分布的最大似然估计:2.混合高斯分布GMM原创 2020-09-16 16:54:47 · 728 阅读 · 0 评论 -
从零开始语音识别(2)--- 语音信号处理
语音信号特征提取流程预加重:preemphasis反应到代码其实就是1行:np.append(signal[0], signal[1:] - coeff * signal[:-1])加窗分帧为什么要加上帧移?加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者固定取为 10 毫秒def enframe(signal, frame_len.原创 2020-09-15 17:38:34 · 573 阅读 · 0 评论 -
从零开始语音识别算法--(1)基本概念
学习目标希望从语音识别开始深入,最后可以开发一个个性化语音合成的系统。这样就可以随时随地可以听你想听到的人说话啦。语音识别的总体思路语音基本单位:帧(Frame)HMM模型:初始状态概率(P(w1))和状态转移概率(P(w2 |w1)、P(w2 |w2))可以用常规的统计方法从样本中计算出来,主要的难点在于发射概率(P(x1 |w1)、P(x2 |w2)、P(x3 |w2))的计算,所以声学模型问题进一步细化到发射概率(Emission Probability) 的学习上,可以通过生成式模型(原创 2020-09-15 14:27:39 · 878 阅读 · 0 评论