DataBaker的博客

语音基本概念

关注

文章平均质量分 71

关注数：文章数：2 文章阅读量：9662 文章收藏量：55

作者: DataBaker标贝科技

这个作者很懒，什么都没留下…

展开

GMM-HMM声学模型实例详解（标贝科技）

GMM-HMM声学模型实例详解 GMM-HMM为经典的声学模型，基于深度神经网络的语音识别技术，其实就是神经网络代替了GMM来对HMM的观察概率进行建模，建模解码等识别流程的格个模块仍然沿用经典的语音识别技术接下来我将从GMM、最大似然估计到EM算法实例，再到最后使用一段语音介绍GMM-HMM声学模型参数更新过程一、GMM (混合高斯分布) 1、正态分布(高斯分布) 如果你绘制出来的概率分布是一条钟型曲线，且平均值、众数和中位数都是相等的，那么随机变量X就服从正态分布，记为X~N(μ，σ2),正态分布概

原创 2022-01-17 11:38:19 · 4317 阅读 · 0 评论
MFCC特征介绍

MFCC特征介绍在语音识别技术中，需要提取音频的特征，然后就可以使用该音频进行模型的训练或者是进行识别，目前很常用的一种特征叫做MFCC特征，又叫做梅尔倒谱系数特征。MFCC特征保留了语义相关的一些内容，过滤掉了诸如背景杂音等无关的信息。MFCC的特点是使用一组用来创建梅尔倒谱的关键系数，这样使得它的倒频谱和人类非线性的听觉系统更为接近。具体步骤如下：对音频信号进行分帧加窗将信号进行傅里叶变换将频谱映射到梅尔刻度取对数进行DCT变换为什么要对音频信号进行分帧加窗？因为音频信号本身是非平

原创 2021-08-10 19:18:16 · 5345 阅读 · 0 评论