语音信号处理--韩纪庆--笔记6-1

因为现在正在做说话人识别相关的内容,一边学一边做,所以跳了两章,先从第六章语音识别记起~

第六章 语音识别

语音识别,即机器接收人的语音,理解意图并作出相应的反应。按词汇量大小可分为大中小词汇量识别、按发音方式可分为孤立词、连接词、连续语音及关键词 识别,按说话人可分为特定说话人和非特定说话人识别、按识别方法可分为模型匹配法、随机模型法、概率语法分析法:(括号内打个比方~)提供语音信号的特征作为参考(标准答案),用一个可以衡量未知模式和参考模板之间似然度的函数(根据什么批卷,比如字迹、卷面、答题准确度),选择最佳准则做出最后的识别决策(最后的考试分数)。

当今主流算法--隐马尔可夫模型法

原理示意:

voice input→预处理→feature→训练(参考)or识别(匹配)

*基于矢量化的识别技术:

量化可分为标量量化和矢量量化;标量量化及采样后的信号值量化,设置量化阶梯,信号值靠近哪个阶梯就被划分为哪个量化值;;矢量量化是将若干采样信号分为一组即为一个矢量,对此矢量进行一次量化--将d维空间划分为K个区域,输入信号的矢量与区域边界比较,并被量化为距离最小的区域的中心矢量值。

1.K-means矢量量化算法

初始化K个中心z,将训练数据矢量按最近原则分配到最近的z,,分配好后更新z,不断重复分配、更新

2.LBG算法

很多情况下要划分的组的个数未知,则先取K=1,然后取组内距离最远的 两个点作为新的聚类中心,再次K-means执行聚类

*动态时间归正的识别技术

语音信号具有十分大的随机性,简单地将输入模板与参考模板作比较存在很大的缺点。动态时间弯折(DTW)将时间归正处理和距离测度计算结合起来。

DTW将一个复杂的全局最优化问题转换为许多局部最优化问题,其寻找一个最佳时间归正函数,使得待测语音的时间轴非线性地映射到参考模板的时间轴上,使总的累计失真量最小

模板训练算法:

偶然模板训练法--特定人小词汇量,顽健性不好;顽健模板训练法--每个词重复说多遍;非特定人识别的模板训练算法--聚类法--语音识别模板的聚类针对的是有时序关系的谱特征序列而不是固定的维数。

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值