动态时间规整
DT
W
动态
时间
规整
DTW(dynamic time warping)
曾经是语音识
别的一种主流方法。
其
思想是:由于
语音信号是一种具有相当大随机性的信
号,即使相同说话者对相同的词,每一次发音的结果
都是不同的,也不可能具有完全相同的时间长度。因
此在与已存储模型相匹配时,未知单词的时间轴要不
均匀地扭曲或弯折,以使其特征与模板特征对正。用
时间规整手段对正是一种非常有力的措施,对提高系
统的识别精度非常有效。
动态时间规整
DTW
是一个典型的优化问题,它用满足一
定条件的的
时间规整函数
W(n)
描述输入模板和参考模
板的时间对应关系,求解两模板匹配时累计距离最小
所对应的规整函数。
将时间规整与距离测度结合起来,采用动态规划技
术,比较两个大小不同的模式,解决语音识别中语
速多变的难题;
一种非线性时间规整模式匹配算法;
DTW ( Dynamic Time Warping )
,即「
动态时间扭曲
」或是
「
动态时间规整
」。
这
是一套根基
于
「
动态规划
」(
Dynamic
Programming
,
简称
DP
)的方法,可以有效地
将搜寻比对的
时间
大幅降低。
DTW
的目
标
就是要找出
两个
向量之
间
的最短
距离
。一般而
言,
对于两个
n
维空间
中的向量
x
和
y
,它
们之间
的
距离
可以
定义为两点之间的直线距离
,
称为
尤拉
距离
(
Euclidean
Distance
)。
dist(
x
,
y
) = |
x
–
y
|
,
但是如果向量的
长度
不同,那它
们之间的距离
,就
无法
使用
上
述
的
数学
式來
计算
。一般而言,假設
这两个
向量的元素
位置
都
是代表
时间
,
由于我们
必須容忍在
时间轴
的偏差,因此
我们
並
不知道
两个
向量的元素
对应关系
,因此
我们
必須靠
着
一套有效
的
运算
方法,才可以找到最佳的
对应
关系
。
DTW
是
用于与说话人有关
(
Speaker
Dependent
)的
语音识别
,使用者自行
录音
然
后
再以自己的
声音
來
比对
之前
录好
的
语音资
料
。
此方法比較
适合
同一位
说话人
的
声音
來
进行
比
較,因此
应用范围比较狭隘
,
譬如
目前
手机
Name Dialing
等等。
DTW
的问题:
运算量大;
识别性能过分依赖于端点检测;
太依赖于说话人的原来发音;
不能对样本作动态训练;
没有充分利用语音信号的时序动态特性;
DTW
适合于特定人基元较小的场合,多用于孤
立词识别;
动态规划算法总体思想
动态规划算法基本思想是将待求解问题分解成若干个子问题
但是经分解得到的子问题往往不是互相独立的。不同子问题的
数目常常只有多项式量级。求解时,有些子问题被重复计算了
许多次。
如果能够保存已解决的子问题的答案,而在需要时再找出已求
得的答案,就可以避免大量重复计算,从而得到多项式时间算
法。
动态规划基本步骤
v
找出最优解的性质,并刻划其结构特征。
v
递归地定义最优值。
v
以自底向上的方式计算出最优值。
v
根据计算最优值时得到的信息,构造最优解