动态时间规整算法

 

动态时间规整 DT W
动态 时间 规整 DTW(dynamic time warping) 曾经是语音识 别的一种主流方法。
思想是:由于 语音信号是一种具有相当大随机性的信 号,即使相同说话者对相同的词,每一次发音的结果 都是不同的,也不可能具有完全相同的时间长度。因 此在与已存储模型相匹配时,未知单词的时间轴要不 均匀地扭曲或弯折,以使其特征与模板特征对正。用 时间规整手段对正是一种非常有力的措施,对提高系 统的识别精度非常有效。
动态时间规整 DTW 是一个典型的优化问题,它用满足一 定条件的的 时间规整函数 W(n) 描述输入模板和参考模 板的时间对应关系,求解两模板匹配时累计距离最小 所对应的规整函数。

™ 将时间规整与距离测度结合起来,采用动态规划技 术,比较两个大小不同的模式,解决语音识别中语 速多变的难题;
™ 一种非线性时间规整模式匹配算法;

DTW ( Dynamic Time Warping ) ,即「 动态时间扭曲 」或是 动态时间规整 」。是一套根基 动态规划 」( Dynamic Programming 简称 DP )的方法,可以有效地 将搜寻比对的 时间 大幅降低。
DTW 的目就是要找出 两个 向量之的最短 距离 。一般而 言, 对于两个 n 维空间 中的向量 x y ,它 们之间 距离 可以 定义为两点之间的直线距离 称为 尤拉 距离 Euclidean Distance )。
dist( x , y ) = | x y |
但是如果向量的 长度 不同,那它 们之间的距离 ,就 无法 使用 上 述 数学 式來 计算 。一般而言,假設 这两个 向量的元素 位置 是代表 时间 由于我们 必須容忍在 时间轴 的偏差,因此 我们 不知道 两个 向量的元素 对应关系 ,因此 我们 必須靠一套有效 运算 方法,才可以找到最佳的 对应
关系

DTW 用于与说话人有关 Speaker Dependent )的 语音识别 ,使用者自行 录音 再以自己的 声音 比对 之前 录好 语音资 料
此方法比較 适合 同一位 说话人 声音 进行 較,因此 应用范围比较狭隘 譬如 目前 手机 Name Dialing 等等。

DTW 的问题:
™ 运算量大;
™ 识别性能过分依赖于端点检测;
™ 太依赖于说话人的原来发音;
™ 不能对样本作动态训练;
™ 没有充分利用语音信号的时序动态特性;
DTW 适合于特定人基元较小的场合,多用于孤 立词识别;


动态规划算法总体思想
动态规划算法基本思想是将待求解问题分解成若干个子问题
但是经分解得到的子问题往往不是互相独立的。不同子问题的 数目常常只有多项式量级。求解时,有些子问题被重复计算了 许多次。
如果能够保存已解决的子问题的答案,而在需要时再找出已求 得的答案,就可以避免大量重复计算,从而得到多项式时间算 法。

动态规划基本步骤
v 找出最优解的性质,并刻划其结构特征。
v 递归地定义最优值。
v 以自底向上的方式计算出最优值。
v 根据计算最优值时得到的信息,构造最优解

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值