语音处理
mlxaaa
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
李宏毅语音识别课程摘要
语音识别Overview 语音识别输出的数据类型(Token)分类 Phoneme:发音的基本单位(类似于音标) 需要一个lexicon记录word与phonemes的对应关系: Grapheme:书写的基本单位 中文:一个字 英文:26个英文单词 无需lexicon的映射关系 word:词 不同语言的词汇都非常的多 -morpheme:有意义的基本单位(长度在word和grapheme之间) 例如unbreakable的morepheme可以拆分成:“un” “break” “abl原创 2020-11-05 17:08:26 · 801 阅读 · 0 评论 -
从零开始语音识别(5)--- 端到端的语音识别系统
为什么需要端到端的系统 传统语音识别系统非常复杂,需要分别训练声学模型、语言模型、发音模型 需要领域特殊的专业知识 通过端到端的模型可以直接将输入的声学特征转变为文本 端到端语音识别系统介绍 Seq2Seq 此模型长用于机器翻译、语音识别。其优点是输入输出不需要等长,而且两者长度不固定。 此模型包含两个RNN结构,分别用于编码与解码。Decoder网络直到解码的序列是END才停止,因此可以实现变长的输出。Encoder将输入进行编码,将整个输入的隐状态输入给Decoder,可以实现输入的变长。原创 2020-09-18 15:30:14 · 2959 阅读 · 0 评论 -
从零开始语音识别(4)--- HMM算法详解
GMM只能针对单个样本(变量)进行建模,当把随机变量延伸到随机序列的时候,就需要通过HMM模型进行估计。 HMM基本组成: HMM由初始概率分布(π\piπ)、状态转移概率分布(A)、观测概率分布决定(B), A,B,π\piπ是HMM的三要素 当HMM的观测概率分布是由混合告诉模型GMM表示时,称之为GMM-HMM模型。 HMM的三个基本问题: 概率计算问题:直接计算法 前向算法: 后向算法: 预测算法:Viterbi算法: 3. 学习算法: Viterbi学习算法: Baum-We原创 2020-09-16 17:28:36 · 838 阅读 · 0 评论 -
从零开始语音识别(3)--- GMM与EM算法
高斯分布 多维的高斯分布形式 高斯分布的最大似然估计: 2.混合高斯分布GMM原创 2020-09-16 16:54:47 · 949 阅读 · 0 评论 -
从零开始语音识别(2)--- 语音信号处理
语音信号特征提取流程 预加重:preemphasis 反应到代码其实就是1行: np.append(signal[0], signal[1:] - coeff * signal[:-1]) 加窗分帧 为什么要加上帧移? 加窗的代价是一帧信号两端的部分被削弱了,没有像中央的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者固定取为 10 毫秒 def enframe(signal, frame_len.原创 2020-09-15 17:38:34 · 773 阅读 · 0 评论 -
从零开始语音识别算法--(1)基本概念
学习目标 希望从语音识别开始深入,最后可以开发一个个性化语音合成的系统。这样就可以随时随地可以听你想听到的人说话啦。 语音识别的总体思路 语音基本单位:帧(Frame) HMM模型: 初始状态概率(P(w1))和状态转移概率(P(w2 |w1)、P(w2 |w2))可以用常规的统计 方法从样本中计算出来,主要的难点在于发射概率(P(x1 |w1)、P(x2 |w2)、P(x3 |w2))的计算,所以声学模型问题进一步细化到发射概率(Emission Probability) 的学习上,可以通过生成式模型(原创 2020-09-15 14:27:39 · 1053 阅读 · 0 评论
分享